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Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines 

Proteins 




Anspruche 



1. 



Verfahren zum Optimieren einer Nucleotidsequenz zur Expression eines Proteins auf 
der Grundlage der Aiiiinosaurensequenz des Proteins, welches die folgenden auf ei- 
nem Computer dxirchgefiihrten Schritte umfaJJt: 

Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfol- 
genden Aminosauren in der Proteinsequenz entsprechen, wobei.n eine natiirli- 
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che Zahl und kleiner oder gleich N, der Zahl der Aminosauren der Proteinse- 
quenz, ist, 

Festlegen von m Optimierungspositionen in der Testsequenz, welche der Posi- 
tion von m Codons entsprechen, an denen die Besetzung mit einem Codon, be- 
zogen auf die Testsequenz, optimiert werden soU, wobei m < n und m < N ist, 
Generieren einer oder mehrerer weiterer Testsequenzen aus der ersten Testse- 
quenz, indem an einer oder mehreren der m Optimierungspositionen ein Codon 
der ersten Testsequenz durch ein anderes Codon ersetzt wird, welches dieselbe 
Aminosaure exprimiert, 

Bewerten jeder der Testsequenzen mit einer Gutefunktion und Ermitteln der 
hinsichtiich der Gutefunktion optimalen Testsequenz, 

Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m 
Optimierungspositionen befinden, als Ergebniscodons, welche die Codons der 
optimiertenNucleotidsequenz an den Positionen bilden, die der Position der 
besagten p Codons in der Testsequenz entspricht, wobei p eine natiirliche Zahl 
und p ^ m ist, 

Iterieren der vorangehenden Schritte, wobei in jedem Iterationsschritt die Test- 
sequenz an den Positionen, welche Positionen von festgelegten Ergebniscodons 
in der optimierten Nucleotidsequenz entsprechen, das entsprechende Ergeb- 
niscodon enthait und die Optimierungspositionen von Positionen von Ergeb- 
niscodons verschieden sind. 



Verfahren nach Anspruch 1 , dadurch gekennzeichnet, daB in einem oder mehreren 
Iterationsschritten die m Optimierungspositionen der Testsequenzen unmittelbar auf 
ein Oder mehrere Ergebniscodons folgen, welche als Teil der optimierten Nucleotidse- 
quenz festgelegt worden sind. 

Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dafi in einem oder mehre- 
ren Iterationsschritten die p Codons, die als Ergebniscodons der optimierten Nucleo- 
tidsequenz festgelegt werden, p aufeinanderfolgende Codons sind. 
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Verfahren nach einem der Anspriiche 1 bis 3, dadurch gekennzeichnet, daB in einem 
Iterationsschritt Testsequenzen mit alien mQglichen Codonbesetzungen fur die m Op- 
timierungspositionen axis der ersten Testsequenz generiert werden und die optimale 
Testsequenz unter diesen Testsequenzen ermittelt wird. 

Verfahren nach einem der Anspriiche 1 bis 4, gekennzeichnet durch: 
Bewerten jeder Testsequenz mit einer Gutefunktion, 

Ermitteln eines Extremwertes innerhalb der Werte der Gutefunktion fur alle in 
einem* Iterationsschritt generierten Teilsequenzen, 

Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der 
Gewichtsfunktion entspricht, als Ergebniscodons an den entsprechenden Posi- 
tioned wobei p eine nattirliche Zahl und p < m ist. 

Verfahren nach Anspruch 5, dadurch gekennzeichnet, daB die Gutefunktion eines oder 
mehrere der folgenden Kriterien berttcksichtigt: 

Codon usage fur einen vorgegebenen Organismxis, GC-Gehalt, repetitive Sequenzen, 
Sekundarstrukturen, invers komplementare Sequenzwiederholungen und Sequenzmo- 
tive. 

Verfahren nach Anspruch 6, dadurch gekennzeichnet, daB die Gutefunktion eine 
Funktion von verschiedenen Einzeltermen ist, die jeweils ein Kriterium aus der fol- 
genden Liste von Kriterien bewerten: 

Codon usage ftir einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repeti- 
tive Sequenzen, Sekundarstrukturen, invers komplementare Sequenzwiederholungen. 

Verfahren nach einem der Anspriiche 1 bis 6, dadurch gekennzeichnet, daB die Gute- 
funktion eines oder mehrere der folgenden Kriterien beriicksichtigt: 

AusschluB von invers komplementaren Sequenzidentitaten von mehr als 20 
Nucleotiden zum Transkriptom eines vorgegebenen Organismus, 
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AusschluB von Homologiebereichen von mehr als 100 Basenpaaren zu einer 
vorgegebenen DNS-Sequenz, 

AusschluB von Homologiebereichen mit mehr als 90 % Ahnlichkeit der 
Nucleotidsequenz zu einer vorgegebenen DNS-Sequenz. 

9. Verfahren nach einem der Anspriiche 1 bis 8, gekennzeichnet durch den Schritt des 
Synthetisierens der optimierten Nucleotidsequenz. 

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daB der Schritt des Synthetisie- 
rens der optimierten.Nucleotidsequenz in einer Vorrichtung zum automatischen Syn- . 
thetisieren von Nucleotidsequenzen stattfindet, welcher von dem Rechner angesteuert 
wird, der die Nucleotidsequenz optimiert. 

1 1 . Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Proteins 
auf der Grundlage der Aminosaurensequenz des Proteins, welche eine Recheneinrich- 
tung aufweist, welche umfaBt: 

eine Einrichtung zum Generieren einer ersten Testsequenz von n Codons, wel- 
che n aufeinanderfolgenden Aminosauren in der Proteinsequenz entsprechen, 
wobei n eine natixrliche Zahl und kleiner oder gleich N, der Zahl der Ami-, 
nosSuren der Proteinsequenz ist, 

eine Einrichtung zum Festlegen von m Optimierungspositionen in der Testse- 
quenz, welche der Position von m Codons entsprechen, an denen die Besetzung 
mit einem Codon, bezogen auf die Testsequenz, optimiert werden soli, wobei 
m < n und m < M ist, 

eine Einrichtung zum Generieren einer oder mehrerer weiterer Testsequenzen 
aus der ersten Testsequenz, indem an einer oder mehreren der m Optimie- 
rungspositionen ein Codon der ersten Testsequenz durch ein anderes Codon er- 
setzt wird, welches dieselbe Aminosaure exprimiert, 
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eine Einrichtung zum Bewerten jeder der Testsequenzen mit einer Gtttefunkti- 
on und zum Ennitteln der hinsichtlich der Gxltefunktion optimalen Testse- 
quenz, 

eine Einrichtung zum Festlegen von p Codons der optimalen Testsequenz, wel- 
che sich an einem der m Optimierungspositionen befinden, als Ergebniscodons, 
welche die Codons der optimierten Nucleotidsequenz an den Positionen bilden, 
die den Positionen der besagten p Codons in der Testsequenz entsprechen, wo- 
bei p eine nattirliche Zahl und p < m ist, 

eine Einrichtung zum Iterieren der Schritte des Generierens mehrerer Test- 
funktionen, der Bewertung der Testsequenzen und des Festlegens von Ergeb- 
niscodons, wobei in jedem Iterationsschritt die Testsequenz an den Positionen, 
welche Positionen von festgelegten Ergebniscodons in der optimierten 
Nucleotidsequenz entsprechen, das entsprechende Ergebniscodon enthalt und 
die Optimierungspositionen von Positionen von Ergebniscodons verschieden 
sind. 

Vorrichtung nach Anspruch 1 1, gekennzeichnet durch eine Einrichtung zum Durch- 
fuhren der Schritte eines Verfahrens nach einem der Ansprilche 1 bis 7. 

13. Vorrichtung nach einem der Anspriiche 1 1 oder 12, gekennzeichnet durch eine Vor- 
richtung zum automatischen Synthetisieren von Nucleotidsequenzen, welcher von dem 
Rechner so angesteuert wird, dafi er die optimierte Nucleotidsequenz synthetisiert. 

Computerprogramm, welches von einem Computer ausfiihrbaren Programmcode ent- 
halt, der, wenn er auf einem Computer ausgeflihrt wird, den Computer veranlafit, ein 
Verfahren nach einem der Ansprilche 1 bis 8 durchzufuhren. 



15. 



Computerprogramm nach Anspruch 14, wobei der Programmcode, wenn er auf einem 
Computer ausgeflihrt wird, eine Vorrichtung zum automatischen Synthetisieren von 
Nucleotidsequenzen veranlassen kann, die optimierte Nucleotidsequenz herzustellen. 
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1 6. Computerlesbarer Datentrager, auf welchem in computerlesbarer Form ein Programm 
nach einem der Anspriiche 14 oder 15 gespeichert ist. 

17. Nukleinsaure, welche eine ftir ein Protein codierende Nucleotidsequenz umfafit, er- 
haltlich durch ein Verfahren nach Anspruch 9. 

18. Nukleinsaure nach Anspruch 1 7, dadurch gekennzeichnet, dafi diese eine Nucleotidse- 
quenz umfafit, welche in einem vorgegebenen Organismus fur ein Protein codiert, wo- 

| bei die besagte Nucleotidsequenz in dem natiirlich vorkommenden Genom des Orga-. 
nismus nicht enthalten ist. 

19. Nukleinsaure nach Anspruch 18, dadurch gekennzeichnet, dafi der Organismus ausge- 
wahlt aus der folgenden Gruppe ist: 

Viren, insbesondere Vaccinia- Viren, 

Prokaryonten, insbesondere Escherichia coli, Caulobacter cresentus, Bacillus 
subtilis, Mycobacterium spec., 

Hefen, insbesondere Saccharomyces cerevisiae, Schizosaccharomyces pombe, 
Pichia pastoris, Pichia angusta, 

Insekten, insbesondere Sprodoptera frugiperda, Drosophila spec, 
| - Sauger, insbesondere Homo sapiens, Macaca mulata, Mus musculus, Bos tau- 
rus, Capra hircus, Ovis aries, Oryctolagus cuniculus, Rattus norvegicus, Chine- 
se hamster ovary, 

Monokotyle Pflanzen, insbesondere Oryza sativa, Zea mays, Triticum aestivum 
Dikotyle Pflanzen, insbesondere Glycin max, Gossypium hirsutum, Nicotiana 
tabacum, Arabidopsis thaliana, Solanum tuberosum. 

20. Nukleinsaure nach einem der Anspriiche 1 bis 19, dadurch gekennzeichnet, dafi das 
durch die Nucleotidsequenz codierte Protein eines der folgenden Proteine ist und/oder 
in einer der folgenden Proteinklassen fallt: 
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Enzyme, insbesondere Polymerasen, Endonukleasen, Ligasen, Lipasen, Protea- 

sen, Kinasen, Phosphatases Topoisomerasen, 

Cytokine, Chemokine, Transkriptionsfaktoren, Oncogene, 

Proteine aus thermophilen Organismen, aus cryophilen Organismen, aus halo- 

philen Organismen, aus acidophilen Organismen, aus basophilen Organismen, 

Proteine mit repetitiven Sequenzelementen, insbesondere strukturgebende 
Proteine, 

Humane Antigene, insbesondere Tumorantigene, Tumormarker, Autoim- 
munantigene, diagnostische Marker, 

Virale Antigene, insbesondere von HAV, HBV, HCV, HTV, SIV, FIV, HPV, 
Rinoviren, Influenzaviren, Herpesviren, Poliomaviren, Hendra Virus, Dengue 
Virus, AAV, Adenoviren, HTLV, RSV, 

Antigene von parasitaren Erregem, z.B. Protozoen, insbesondere Erreger von 
Malaria, Leishmania, Trypanosoma, Toxoplasmen, Amoba, 
Antigene von bakteriellen Erregem oder Pathogene, insbesondere von den Ge- 
nera Chlamydia, Staphylococci, Klebsiella, Streptococcus, Salmonella, Liste- 
ria, Borrelia, Escherichia coli, 

Antigene von Organismen der Sicherheitstufe L4, insbesondere Bacillus an- 
thracis, Ebola- Virus, Marburg- Virus, Pockenviren. 

Nukleinsaure nach einem der AnsprUche 18 oder 19, dadurch gekennzeichnet, daJJ die 
Gutefiinktion zumindest eines der folgenden Kxiterien benlcksichtigt: 
GC-Gehalt, 

Codon Usage des vorgegebenen Organismus, 

AusschluB von invers komplementaren Sequenzidentitaten von mehr als 20 
Nucleotiden zum Transkriptom eines vorgegebenen Organismus, 
vollstandiger oder weitgehender Ausschlufi von Homologiebereichen von mehr 
als 100 Basenpaaren zu einer vorgegebenen DNS-Sequenz, 
vollstandiger oder weitgehender AusschluB von Homologiebereichen mit einer 
Ahnlichkeit von mehr als 90 % zu einer vorgegebenen DNS-Sequenz. 
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22. Vektor, umfassend eine NuMeinsaiire nach einem der Anspriiche 1 7 bis 2 1 . 

23. Zelle, umfassend einen Vektor nach Anspruch 22 oder eine Nukleinsaure nach einem 
der Anspruche 17 bis 21. 

24. Organismus, umfassend mindestens eine Zelle nach Anspruch 23 . 
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Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines 

Proteins 



Die Erfindung betrifift allgemein die Erzeugung synthetischer DNS-Sequenzen und deren 
Verwendung zur Erzeugung von Proteinen, indem diese DNS-Sequenzen in ein Expressions- 
system, zum Beispiel in einen Wirtsorganismus/eine Wirtszelle oder ein System fur eine In- 
vitro-Expression eingebracht werden, der bzw. die das entsprechende Protein exprimiert. Sie 
betrifift insbesondere Verfahren, bei denen eine synthetische Nucleotidsequenz fur das jewei- 
lige Expressionssystem, also zum Beispiel fur einen Organismus/fur eine Wirtszelle, mit Hilfe 
eines Computers optimiert wird. 



- 24.347 • 



Hollerallee 32 . D-28209 Bremen - P.O.B. 10 71 27 . P-28071 Bremen • Telephon +49^21-34090 - Telefa x +49-421-3491768 

MONCHEN - BREMEN - BERLIN - DOSSELDORF - FRANKFURT. BIELEFELD - POTSDAM - KIEL - PADERBORN - LAND SHUT - HOHENKIRCHEN - ALICANTE - PARIS 

http://www.boehmert.de e-mail: postmaster@boehmert.de 



BOEHMERT & BOEHMERT 
-2- 




Eine Technik zur HersteUung und Synthetisierung von Proteinen ist das Klonen und Expri- 
mieren der dem Protein entsprechenden Gensequenz in heterologen Systemen, z.B. Escheri- 
chia coli oder Hefe. NatUrlich vorkommende Gene sind fur diesen Zweck allerdings haufig 
suboptimal. Da in einer DNS-Sequenz, die ein Protein exprimiert, jeweils ein Triplett von 
Basen (Codon) eine Aminosaure exprimiert, ist es mdglich, eine ktinstliche DNS-Sequenz zur 
Expression des gewiinschten Proteins zu synthetisieren und fur das Klonen und Exprimieren 
des Proteins zu verwenden. Ein Problem bei diesem Vorgehen besteht darin, dafi einer vorge- 
gebenen Aminosaurensequenz keine eindeutige Nucleotidsequenz entspricht. Dies wird als 
Degeneriertheit des genetischen Codes bezeichnet. Unterschiedliche Organismen verwenden 
Codons fur die Expression einer Aminosaure mit unterschiedlicher Haufigkeit (sogenannte 
Codon usage). In der Regel gibt es in einem gegebenen Organismus ein Codon, das tiberwie- 
gend verwendet wird und ein oder mehrere Codons, welche mit vergleichsweise geringer 
Haufigkeit von dem Organismus zur Expression der entsprechenden Aminosaure verwendet 
werden. Da die synthetisierte Nucleotidsequenz in einem bestimmten Organismus verwendet 
werden soli, sollte die Wahl der Codons an die Codon usage des entsprechenden Organismus 
angepaBt sein. Eine weitere wichtige GroBe ist der GC-Gehalt (Gehalt der Basen Guanin und 
Cytosin in einer Sequenz). Weitere Faktoren, welche das Expressionsergebnis beeinflussen 
kSnnen, sind DNS-Motive und Wiederholungen oder invers komplementare Wiederholungen 
in der Basensequenz. Bestimmte Basenabfolgen erzeugen in einem gegebenen Organismus 
bestimmte Funktionen, die innerhalb einer codierenden Sequenz nicht erwtinscht sein konnen. 
Beispiele sind cis-aktive Sequenzmotive wie SpleiBstellen oder Transkriptionsterminatoren. 

'as unbeabsichtigte Vorhandensein eines bestimmten Motivs kann die Expression reduzieren 
oder ganz unterdriicken oder sogar fttr den Wirtsorganismus eine toxische Wirkung haben. 
Sequenzwiederholungen k6nnen zu einer geringeren genetischen Stabilitat'fuhren und er- 
schweren die Synthese repetitiver Abschnitte aufgrund der Gefahr von Fehlhybridisierungen. 
Invers komplementare Wiederholungen konnen zur Bildung von unerwiinschten Sekundar- 
strukturen auf der RNA-Ebene oder cruciformer Strukturen auf DNS-Ebene fuhren, welche 
die Transkription behindern und zu genetischer Instability fuhren, bzw. die Translationseffi- 
zienz negativ beeinflussen kSnnen. 
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Ein synthetisches Gen sollte daher hinsichtlich der Codon usage und des GC-Gehalts opti- 
miert sein und andererseits die mit DNS-Motiven sowie Sequenzwiederholungen und invers 
komplementaren Sequenzwiederholungen verbundenen Probleme weitgehend vermeiden. 
Diese Erfordernisse lassen sich in der Regel jedoch nicht gleichzeitig und in optimaler Weise 
erfiillen. Beispielsweise kann eine Optimierung auf die optimale Codon usage zu einer stark 
repetitiven Sequenz und einem erheblichen Abweichen von dem gewiinschten GC-Gehalt 
fiihren. Es gilt daher, einen moglichst optimalen Kompromifi zwischen der ErfUllung der ver- 
schiedenen Erfordernisse herbeizufuhren. Die grofie Anzahl von Aminosauren in einem Pro- 
tein fiihrt jedoch zu einer kombinatorischen Explosion der Zahl der moglichen DNS- 

•Sequenzen, welche - im Prinzip - das gewunschte Protein exprimieren kSnnen. Aus diesem 
Grund wurden verschiedene computergestutzte Verfahren zum Ermitteln einer optimalen Co- 
donsequenz vorgeschlagen. 

P.S. Sarkar und Samir K. Brahmachari, Nucleic Acids Research 20 (1992), 5713 beschreiben 
Untersuchungen zur Rolle der Wahl der Codons bei der Bildung bestimmter raumlicher 
Strukturen einer DNS-Sequenz. Hierbei wurden alle mQglichen degenerierten Nucleotidse- 
quenzen generiert. Eine Bewertung der Sequenzen hinsichtlich des Vorhandenseins von 
strukturellen Motiven und strukturbildender Abschnitte erfolgte durch einen Computer unter 
Verwendung einer Wissensbasis. Die Verwendung einer Gutefunktion ist nicht offenbart. 

^^■p.M. Hoover und J. Lubkowski, Nucleic Acid Research 30 (2002), Nr. 10 e43 schlagt ein 
^^^computergestUtztes Verfahren vor, bei dem die Nucleotidsequenz in eine ungerade Anzahl 
von Abschnitten unterteilt wird, fur die jeweils eine Gutefunktion (Score) berechnet wird. In 
die Gtitefunktion gehen u.a. die Codon usage, die Moglichkeit der Bildung von Haarnadel- 
strukturen und die Abweichungen von der gewiinschten Schmelztemperatur ein. Der Wert der 
Gutefunktion fur die Gesamtsequenz bestimmt sich aus der Summe der Werte der Gutefunk- 
tion fur die einzelnen Abschnitte. Die Besetzung mit Codons innerhalb eines Abschnittes wird 
durch ein sogenanntes Monte-Carlo-Verfahren optimiert. Dabei werden statistisch Codonpo- 
sitionen ausgewahlt, bei denen das Codon einer Ausgangssequenz durch ein statistisch aus- 
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gewahltes aquivalentes Codon ersetzt wird. Gleichzeitig werden in einer Iteration auch die 
Grenzen der Abschnitte neu definiert. Auf diese Weise wird eine vollstandige Gensequenz 
statistisch generiert. 1st der Wert der Gutefunktion fur die Gesamtsequenz kleiner als die bis- 
herige Sequenz, wird die neue Sequenz beibehalten. 1st er groBer, wird mit einer gewissen 
Wahrscheinlichkeit die neue Sequenz beibehalten, wobei diese Wahrscheinlichkeit durch eine 
Boltzmann-Statistik kontrolliert wird. Wenn sich innerhalb einer vorbestimmten Anzahl von 
Iterationen die Sequenz nicht andert, wird diese Sequenz als optimale Sequenz bewertet. 

Derartige statistische Verfahren haben den Nachteil, daB sie stark von der Wahl der Konver- 
genzkriterien abhangen. 

Es ist die Aufgabe der Erfindung, ein alternatives Verfahren zum Optimieren einer Nucleo- 
tidsequenz zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Pro- 
teins zur Verfiigung zu stellen, welches sich mit relativ geringem Speicherplatz und relativ 
geringer Rechenzeit auf einem Computer implementieren laBt und welches insbesondere 
Nachteile der statistischen Verfahren vermeidet. 




ErfindungsgemaB wird diese Aufgabe durch ein Verfahren zum Optimieren einer Nucleo- 
tidsequenz zur Expression eines Proteins auf der Grundlage der Aminosaurensequenz des 
Proteins gelQst, welches die folgenden auf einem Computer durchgefuhrten Schritte umfaBt: 

Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfolgenden 
Aminosauren in der Proteinsequenz entsprechen, wobei n eine nattirliche Zahl und 
kleiner oder gleich N, der Zahl der Aminosauren der Proteinsequenz, ist, 
Festlegen von m Optimierungspositionen in der Testsequenz, welche der Position von 
m Codons, insbesondere von m aufeinanderfolgenden Codons, entsprechen, an denen 
die Besetzung mit einem Codon, bezogen auf die Testsequenz, optimiert werden soil, 
wobei m < n und m < N ist, 

Generieren einer oder mehrerer weiterer Testsequenzen aus der ersten Testsequenz, 
indem an einer oder mehreren der m Optimierungspositionen ein Codon der ersten 
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Testsequenz durch ein anderes Codon ersetzt wird, welches dieselbe AminosSure ex- 
primiert, 

Bewerten jeder der Testsequenzen mit einer Gtitefunktion und Ermitteln der hinsicht- 
lich der Gtitefunktion optimalen Testsequenz, 

Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m Opti- 
mierungspositionen befinden, als Ergebniscodons, welche die Codons der optimierten 
Nucleotidsequenz an den Positionen bilden, die der Position der besagten p Codons in 
der Testsequenz entspricht, wobei p eine nattirliche Zahl und p < m ist, 
. Iterieren der vorangehenden Schritte, wobei in jedem Iterationsschritt die Testsequenz 
| an den Positionen,. welche Positionen von festgelegten Ergebniscodons in der opti- 
mierten Nucleotidsequenz entsprechen, das entsprechende Ergebniscodon enthalt und 
die Optimierungspositionen von Positionen von Ergebniscodons verschieden sind. 

Gemafl der bevorzugten Aiisfiihrungsform der Erfindung werden die vorangehend genannten 
Schritte so oft iteriert, bis alle Codons der optimierten Nucleotidsequenz festgelegt, d.h. mit 
Ergebniscodons besetzt worden sind. 

ErfindungsgemaB wird also die Sequenz nicht insgesamt, sondern sukzessiv auf Teilbereichen 
optimiert. Die in einem Iterationsschritt als optimal festgelegten p Ergebniscodons werden in 
den nachfolgenden Iterationsschritten nicht mehr verandert und vielmehr bei den jeweiligen 
Pptimierungsschritten als gegeben vorausgesetzt. Vorzugsweise ist die Anzahl der Ergeb- 
' codons, welche auf diese Weise fur die weiteren Iterationen festgelegt und als vorgegeben 
behandelt werden, kleiner als die Anzahl m der Optimierungspositionen, an denen in einem 
Iterationsschritt die Codons variiert werden. Zumindest in der Mehrzahl der Iterationsschritte, 
bei einer besonderen Ausfuhrungsform bei alien Iterationsschritten aufier dem ersten, ist wie- 
derum m kleiner als die Zahl der Codons der Testsequenz (n). Dies gestattet es, nicht nur lo- 
kale Effekte auf den m variierten Positionen, sondern auch langerreichweitige Korrelationen, 
z.B. im Zusammenhang mit der Entstehung von RNA-Sekundarstiukturen, zu beriicksichti- 
gen. 
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GemaB den derzeit bevorzugten Ausfuhrungsformen liegt m im Bereich von 3 bis 20, vor- 
zugsweise im Bereich von 5 bis 10. Bei dieser Wahl dieses Parameters kann die Variation der 
Codons mit einem akzeptablen Aufwand an Speicher und Rechenzeit durchgefuhrt werden 
und gleichzeitig eine gute Optimierung der Sequenz erreicht werden. 

GemaB einer Ausfiihrungsform mufi m in den verschiedenen Iterationsschritten nicht gleich 
sein, sondern kaim vielmehr auch in unterschiedlichen Iterationsschritten verschieden sein. Es 
kann auch vorgesehen sein, in einem Iterationsschritt die Variation der Testsequenz flir ver- 
schiedene Werte von m durchzufuhren und ggf. nur das Optimierungsergebnis flir einen Wert 

•von m zu berucksichtigen, urn Einflttsse dqr GroBe m auf das Optimierungsergebnis zu redu-. 
zieren bzw. urn zu ubeiprufen, ob eine VergroBerung der Zahl m zu einer Anderung des Er- 
gebnisses fuhrt. 

GemaB der bevorzugten Ausfiihrungsform sind die m Optimierungspositionen oder zumindest 
ein Teil davon zusammenhangend und bilden somit ein Variationsfenster in der Testsequenz, 
auf welchem die Codonbesetzung variiert wird. 

Die Erfindung kann insbesondere vorsehen, daB in zwei oder mehr aufeinanderfolgenden Ite- 
rationsschritten ein Teil der m Optimierungpositionen, auf welchen- die Codons variiert wer- 
den, identisch sind. Sind die m Positionen zusammenhangend, bedeutet dies, daB das Variati- 

•onsfenster bei einem Iterationsschritt mit dem Variationsfenster eines vorangehenden Iterati- 
onsschrittes Oberlappt. 

Die Erfindung kann vorsehen, daB in einem oder mehreren Iterationsschritten die m Optimie- 
rungspositionen der Testsequenzen unmittelbar auf ein oder mehrere Ergebniscodons folgen, 
welche als Teil der optimierten Nucleotidsequenz festgelegt worden sind. 

Die Erfindung kann ebenfalls vorsehen, daB in einem oder mehreren Iterationsschritten die p 
Codons, die als Ergebniscodons der optimierten Nucleotidsequenz festgelegt werden, p auf- 
einanderfolgende Codons sind, die vorzugsweise unmittelbar auf ein oder mehrere Ergeb- 
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niscodons folgen, welche als Teil der optimierten Nucleotidsequenz in einem friiheren Schritt 
festgelegt worden sind. 

Die Erfindung kann vorsehen, daB die Nucleotidsequenz von einem ihrer Enden her optimiert 
wird. Insbesondere kann die Erfindung vorsehen, daB in jedem Iterationsschritt die Lange der 
Testsequenz des vorherigen Iterationsschritts um eine bestirnmte Anzahl Codons, die in unter- 
schiedlichen Iterationen verschieden sein kann, vergrSBert wird, bis n = N ist. 1st n = N und 
die Zahl derjenigen Positionen, die in der Testsequenz nicht mit Ergebniscodons besetzt sind, 
kleiner oder gleich dem Wert von m, der in den vorangehenden Iterationen verwendet wurde, 
Oder liegt diese Zahl, bei Verwendung unterschiedlicher Werte von m in verschiedenen Itera- 
tionen, im Bereich der in Frage kommenden Werte von m, kann in dem.entsprechenden Itera- 
tionsschritt p = m gesetzt werden, wobei m gleichzeitig die Zahl der noch nicht festgelegten 
Codons ist. Die als optimal aufgefundene Besetzung der Optimierungspositionen wird dann 
fur die Ergebniscodons an diesen Optimierungspositionen ubernommen. Dies gilt insbesonde- 
re dann, wenn fur jede mSgUche.Kombination von Besetzungen der Optimierungspositionen 
eine Testsequenz generiert wird. 

Es kann jedoch auch vorgesehen sein, daB der Bereich der Testsequenz innerhalb der gesam- 
ten Sequenz in einem Iterationsschritt nicht oder nicht vollstandig den Bereich einer Testse- 
quenz in einem vorherigen Iterationsschritt umfaBt. Beispielsweise kann die Testsequenz 
selbst ein Fenster auf der Gesamtsequenz, z.B. ein Fenster fester Lange, bilden, das im Laufe 
der verschiedenen Iterationen auf der Gesamtsequenz verschoben wird. 

GemaB einer bevorzugten Ausfuhrungsform wird die Testsequenz nach jedem Schritt um p 
Codons verlangert, wobei insbesondere m fiir alle Iterationsschritte konstant sein kann. 

Analog zu der vorangehend beschriebenen Ausfuhrungsform der Erfindung kann auch vorge- 
sehen sein, daB die Nucleotidsequenz von einer Stelle in ihrem Inneren her optimiert wird. 
Dies kann z.B. in der Art geschehen, daB eine anfangliche Testsequenz, welche einem Bereich 
im Inneren der zu optimierenden Nucleotidsequenz entspricht, zunSchst nach einer Seite suk- 
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zessiv vergrofiert wird, bis das Ende der zu optimierenden Nucleotidsequenz oder ein anderer 
vorgegebener Punkt der zu optimierenden Nucleotidsequenz erreicht ist, und dann die Testse- 
quenz zu der anderen Seite bin vergrSJJert wird, bis dort das andere Ende der zu optimieren- 
den Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleo- 
tidsequenz erreicht ist. 

Die Erfindung kann auch vorsehen, daB die Testsequenzen in einem Iterationsschritt aus einer 
optirnierten oder anderweitig festgelegten Teilsequenz der Lange q und zwei auf beiden Sei- 
ten daran anschlieBenden Variationsbereichen mit einer Lange von mi bzw. m 2 Codons be- 
|Steht, wobei q+rm+mz = n gilt. Die Besetzung der Variationsbereiche kann fur beide Variati- 
onsbereiche gemeinsam optimiert werden, indem die Codons auf den mj und m 2 Platzen 
gleichzeitig variiert und optimiert werden. Vorzugsweise werden in einem solchen Fall in 
jedem Iterationsschritt pj und p 2 Codons in dem ersten und zweiten Variationsbereich festge- 
legt, welche der weiteren Iteration als gegeben zugrunde gelegt werden. Es kann jedoch auch 
vorgesehen sein, daB die beiden Variationsbereiche unabhangig voneinander variiert und op- 
timiert werden. Beispielsweise kann vorgesehen sein, daB die Besetzung nur in einem der 
beiden Variationsbereiche variiert wird und nur in dem einen Bereich Codons festgelegt wer- 
den, bevor die Variation und Optimierung in den zweiten Bereich stattfindet. In diesem Fall 
werden die pj festgelegten Codons in dem ersten Bereich bei der Optimierung des zweiten 
Bereichs als gegeben vorausgesetzt. Dieses Vorgehen ist dann sinnvoll, wenn allenfalls gerin- 
;e Korrelationen zwischen den beiden Bereichen zu erwarten sind. 



GemaB dieser Ausfuhrungsform kann vorgesehen sein, daB die Nucleotidsequenz von einem 
Punkt oder einem Bereich im Inneren der Sequenz ausgehend optimiert wird. ~. 

Die Erfindung kann insbesondere vorsehen, daB in jedem Iterationsschritt der Bereich der 
Testsequenz auf der Gesamtsequenz den Bereich der Testsequenzen in alien vorangehenden 
Iterationsschritten umfaBt und der Bereich einer Testsequenz in zumindest einigen der voran- 
gehenden Iterationsschritte jeweils im Inneren oder jeweils am Rand des Bereichs der Testse- 
quenz in dem aktuellen Iterationsschritt liegt. 
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Die Erfindung kann vorsehen, daB die Nucleotidsequenz auf verschiedenen Teilbereichen 
unabhangig optimiert wird. Die optimierte Nucleotidsequenz kann dann die Kombination der 
verschiedenen optimierten Teilsequenzen sein. Es kann auch vorgesehen sein, daB zumindest 
ein Teil der jeweiligen Ergebniscodons von zwei oder mehr optimierten Teilbereichen als 
Bestandteil einer Testsequenz in einer oder mehreren Iterationen verwendet wird. 

Gemafi einer bevorzugten Ausfiihrungsform der Erfindung ist vorgesehen, daB in einem Ite- 
rationsschritt Testsequenzen mit alien moglichen Codonbesetzungen fxir die m Optimierungs- 

•positionen aus der ersten Testsequenz generiert werden und die optimale Testsequenz unter 
alien moglichen Testsequenzen, bei denen an einer oder mehreren der m Optimierungsposi- 
tionen ein Codon durch ein anderes Codon, welches dieselbe Aminosaure exprimiert, ersetzt 
wurde, ermittelt wird. 

GemSB einer Ausfiihrungsform der Erfindung ist die zum Bewerten der Testsequenzen ver- 
wendete Giitefunktion bei alien oder zumindest der Mehrzahl der Iterationen gleich. Die Er- 
findung kann jedoch auch vorsehen, unterschiedliche Gtttefunktionen in unterschiedlichen 
Iterationen, zum Beispiel in Abhangigkeit von der Lange der Testsequenzen, zu verwenden. 

Das erfindungsgemaBe Verfahren kann insbesondere die folgenden Schritte umfassen: 
Bewerten jeder Testsequenz mit einer Gtttefurtktion, 

Ermitteln eines Extremwertes innerhalb der Werte der Gutefunktion fur alle in einem 
Iterationsschritt generierten Teilsequenzen, 

Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der Gewichts- 
funktion entspricht, als Ergebniscodons an den entsprechenden Positionen, wobei p ei- 
ne natiirliche Zahl und p < m ist. 

Die Gutefunktion kann so definiert sein, daB die Sequenz entweder umso naher an dem Opti- 
mum liegt, je grSBer der Wert der Gtttefunktion ist, oder umso naher an dem Optimum liegt, 
je kleiner ihr Wert ist Entsprechend wird man bei dem Schritt des Ermittelns des Extrem- 
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wertes das Minimum oder das Maximum der Gtitefunktion unter den generierten Codonse- 
quenzen ermitteln. 

Die Erfindung kann vorsehen, daB die Gtitefunktion eines oder mehrere der folgenden Kriteri- 
en beriicksichtigt: 

Codon usage fiir einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repetitive 
Sequenzen, Sekundarstrukturen, inverse Repeats. 

Die Erfindung kann insbesondere vorsehen, dafi die Gtitefunktion eines oder mehrere der fol- 
^genden Kriterien beriicksichtigt: 

W- cis-aktive Sequenz-Motive, insbesondere DNS/Protein-Interaktionsbindestellen und 
RNS/Protein-Interaktionsbindestellen, bevorzugt SpleiBmotive, Transkriptionsfaktor- 
bindestellen, Traiiskriptionstenninatorenbindestelleh, Polyadenylierungssignale, En- 
donucleaseerkennungssequenzen, immunomodulatorische DNS-Motive, Ribosomen- 
bindestellen, Erkennungssequenzen fiir rekombinationsaktive Enzyme, Erkennungsse- 
quenzen fiir DNS-modifizierende Enzyme, Erkennungssequenzen fiir RNS- 
modifizierende Enzyme, Sequenzmotive, die in einem vorgegebenen Organismus un- 
terreprasentiert sind. 

Die Erfindung kann auch vorsehen, daB die GMefunktion eines oder mehrere der folgenden 
^Kriterien beriicksichtigt: 

AusschluB oder weitgehender Ausschlufl von invers komplementaren Sequenzidenti- 
taten von mehr als 20 Nukleotiden zum Transkriptom eines vorgegebenen Organis- 
mus, 

Ausschlufl oder weitgehender AusschluB von Homologiebereichen von mehr als 1 .000 
Basenpaaren, bevorzugt 500 Basenpaaren, starker bevorzugt 100 Basenpaaren zu einer 
vorgegebenen DNS-Sequenz, zum Beispiel zu dem Genom eines vorgegebenen Orga- 
nismus oder zu der DNS-Sequenz eines vorgegebenen Vektorkonstrukts. 
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Das erste dieser beiden Kriterien betrifft den AusschluB des als RNA-Indifferenz bekannten 
Mechanismus, mit dem ein Organismus RNA-Sequenzen mit mehr als 20 Nukleotiden exak- 
ter Identitat zu einer anderen RNA-Sequenz eliminiert oder deaktiviert. Mit dem zweiten 
Kriterium soli verbindert werden, daB eine Rekombination, das heiBt ein Einbau der Sequenz 
in das Erbgut des Organismus, oder eine Mobilisierung von DNS-Sequenzen durch Rekombi- 
nation mit anderen Vektoren stattfindet. Beide Kriterien kfinnen als absolute Ausschluflkrite- 
rien verwendet werden, d.h. Sequenzen, bei denen eines oder beide dieser Kriterien erfullt 
sind, werden nicht beriicksichtigt. Die Erfindung kann auch, wie nachfolgend poch.genauer 
im Zusammenhang mit Sequenzmotiven erlautert wird, vorsehen, daB diesen Kriterien ein 
Gewicht zugeordnet ist, das betragsmaBig gr6Ber ist als der grSBte Beitrag von Kriterien zu 
der Gtttefunktion, welche keine AusschluBkriterien sind. 

Die Erfindung kann auch, gegebenenfalls zusammen mit anderen Kriterien, das Kriterium 
vorsehen, daB keine Homologiebereiche erzeugt werden, die mehr als 90 % Ahnlichkeit 
und/oder 99 % . Identitat zu einer vorgegebenen DNS-Sequenz, zum Beispiel zu der entspre- 
chenden Genomsequenz des vorgegebenen Organismus oder zu der DNS-Sequenz eines vor- 
gegebenen Vektorkonstrukts aufweisen. Auch dieses Kriterium kann entweder als absolutes 
AusschluBkriterium reaUsiert sein oder in einer Weise, daB es einen sehr groBen Beitrag zu 
der Giitefunktion leistet, welcher den Beitrag anderer Kriterien; die nicht AusschluBkriterien 
sind, tiberwiegt. 



besondere kann vorgesehen sein, daB die Gutefunktion eine Funktion von verschiedenen 
Einzeltermen, insbesondere eine Summe von Einzeltermen ist, die jeweils ein Kriterium aus 
der folgenden Liste von BCriterien bewerten: 

Codon usage fur einen vorgegebenen Organismus, GC-Gehalt, DNS - Motive, repetitive Se- 
quenzen, Sekundarstrukturen, inverse Repeats. 

Die besagte Funktion von Einzeltermen kann insbesondere eine Linearkombination von Ein- 
zeltermen oder eine rationale Funktion von Einzeltermen sein.Die genannten Kriterien mils- 
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sen nicht notwendigerweise vollstandig in der Gewichtsfunktion beriicksichtigt werden. Es 
kann auch nur ein Teil der Kriterien in der Gewichtsfunktion verwendet werden. 

Die verschiedenen Einzelterme in der besagten Funktion werden nachfolgend Kriteriumsge- 
wichte genannt. 

Die Erfindung kann vorsehen, daB das Kriteriumsgewicht betreffend die Codon Usage (CU 
Score) proportional zu Si f c i/fcmaxi ist, wobei 

f C i die Haufigkeit des an der Stelle i der Testsequenz gesetzten Codons fur den betref- 
fenden Organismus zur Expression der Aminosaure an der Stelle i der Aminosauren- 
sequenz des zu exprimierenden Proteins ist und 

fcmaxi die Haufigkeit des Codons ist, welches in dem entsprechenden Organismus am 
haufigsten die Aminosaure an der Stelle i exprimiert. 

Das MaB fd/fcmaxi ist als „Relative Adaptiveness" bekannt (vgl. P. M.. Sharp, W. H. Li, 

Nucleic Acids Research 15 (3) (1987), 1281 bis 1295). 

» 

Das lokale Gewicht des am haufigsten vorkommenden Codons wird dabei, unabhangig von 
der absoluten Haufigkeit, mit der dieses Codon vorkommt, auf einen bestimmten Wert, zum 
Beispiel 1, gesetzt. Damit wird vermieden, dafl die Positionen, an denen nur wenige Codons 

•zur Auswahl stehen, starker zudem Gesamtgewicht beitragen als diejenigen, an denen eine 
groBere Anzahl von Codons zur Expression der Aminosaure zur Auswahl stehen. Der Index i 
kann iiber die gesamten n Codons der Testsequenz oder einen Teil davon laufen. Insbesondere 
kann in einer Ausfiihrungsform vorgesehen sein, dafi i nur tiber die m Codons der Optimie- 
rungspositionen lauft. 

Die Erfindung kann vorsehen, dafi das Kriteriumsgewicht betreffend die Codonusage nur fur 
die m Ordnungspositionen verwendet wird. 



BOEHMERT & BOEHMERT 
- 13- 

Anstelle der Relative Adaptiveness kann audi die sogenannte RSCU (Relative Synonymous 
Codon Usage; vgl. P. M. Sharp, W. H. Li, a.a.0.) verwendet werden. Die RSCU fur eine Co- 
donposition ist definiert durch 

RSCUc^I^idi/defci) 

definiert, wobei die Summe im Nenner uber alle Codons lauft, welche die Aminosaure an der 
Stelle i exprimieren und wobei dj die Zahl der Codons angibt, welche die besagte Aminosaure 
exprimieren. Urn ein Kriteriengewicht auf der Grundlage der RSCU zu definieren, kann vor- 

•gesehen sein, daB die RSCU ftir die jeweilige Testsequenz ilber alle Codons der Testsequenz 
oder einen Teil davon, insbesondere iiber die m-Codons der Optimierungspositionen, sum- 
miert wird. Der Unterschied zu dem von der Relative Adaptiveness abgeleiteten Kriteriums- 
gewicht besteht darin, daB bei dieser Gewichtung jede Codonposition mit dem Grad der De- 
generiertheit, d i5 gewichtet wird, so daB solche Positionen, an denen mehr Codons zur Aus- 
wahl stehen, starker in das Kriteriumsgewicht eingehen als solche Positionen, an denen nur 
wenige Codons oder sogar nur ein einziges Codon zur Auswahl stehen. 

Bei den vorangehend beschriebenen Kriteriumsgewichten ftir die Codon-Usage wurde das 
arithmetische Mittel Uber die lokalen Gewichte (Relative Adaptiveness, RSCU) gebildet. 

«:s kann auch vorgesehen sein, daB das Kriteriumsgewicht betreffend die Codon-Usage pro- 
ortional zu den geometrischen Mittel der lokalen Relative Adaptiveness bzw. der lokalen 
RSCU ist, so daB also gilt 

CUScore = RSCUi) 1/L 

oder 

CUScore = K(nif ci /f cmaxi ) 1/L 
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ist, wobei K ein Skalierungsfaktor ist und L die Anzahl der Positionen ist, tiber welche das 
Produkt gebildet wird. Auch hier kann das Produkt wieder tiber die gesamte Testsequenz oder 
einen Teil, insbesondere Uber die m Optimierungspositionen, gebildet werden. 

In diesem Zusammenhang stellt die Erfindung auch ein Verfahren zum Optimieren einer Nu- 
kleotidsequenz zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des 
Proteins zur Verfugung, welches die folgenden auf einem Computer durchgefuhrten Schritte 
umfaBt: 

Generieren einer oder mehrerer Testsequenzen von n Codons, welche n aufeinander- 
| folgende Aminosauren in der Proteinsequenz entsprechen, wobei n eine naturlich Zahl 

kleiner oder gleich N, der Zahl der AminosSuren der Proteinsequenz, ist, 
Bewerten der einen oder mehreren Testsequenzen auf der Grundlage einer Gilteftmkti- 
• on, welche ein geometrisches oder arithmetisches Mittel der Relative Adaptiveness 
oder der RSCU tiber eine Anzahl von L Codonpositionen erithalt, wobei L kleiner oder 
gleich N ist, 

Generierung einer oder mehrerer neuer Testsequenzen in Abhangigkeit von dem Er- 
gebnis der besagten Bewertung. 

Dabei kann die Generierung einer oder mehrerer neuer Testfunktionen in der oben beschrie- 
benen Weise derart erfolgen, daB die neuen Testsequenzen eine bestimmte Anzahl aufgrund 
kder vorangehenden Iterationen festgelegte Ergebniscodons enthalten, aber z.B. auch so, dafi 
eine bestimmte Testsequenz mit einer bestimmten Wahrscheinlichkeit, die von dem Wert der 
Gtitefunktion abhangt, als Grundlage fiir weitere Iterationen, insbesondere die weitere Erzeu- 
gung von Testsequenzen, verwendet wird, wie dies bei Monte-Carlo-Verfahren der Fall ist 

Wahrend die Qualitat eines Codons bei den obengenannten Verfahren durch die Nutzungs- 
haufigkeit im Transkriptom oder einem Gen-Referenzset des Expressionsorganismus definiert 
wird, kann die Giite eines bestimmten Codons alternativ auch durch die biophysikalischen 
Eigenschaften des Codons selbst beschrieben werden. So ist zum Beispiel bekannt, daB Co- 
dons mit einer mittleren Codon-Anticodon-Bindungsenergie besonders effizient translatiert 
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werden. Als MaB fiir die translatorische Effizienz einer Testsequenz kann daher zum Beispiel 
der P2-Index verwendet werden, welcher das Verhaltnis der Haufigkeit von Codons mit mitt- 
lerer Bindungsenergie und Codons mit extrem starker bzw. schwacher Bindungsenergie an- 
gibt. Alternativ konnen auch experimentell oder durch theoretische Berechnungen gewonnene 
Daten zur translatorischen Effizienz oder translationsgenauigkeit eines Codons zur Giitebe- 
wertung genutzt werden. Die oben genannten Bewertungskriterien konnen besonders dann 
von Vorteil sein, wenn die tRNA-Frequenzen des Expressionssystems nicht berucksichtigt 
werden mussen, da diese wie zum Beispiel bei in Vitro-Translationssystemen vom. Experi- 
mentator festgelegt werden k6nnen. 

^Die Erfindung kann vorsehen, daB das Kriteriumsgewicht betrefifend den GC-Gehalt (GCSco- 
re) eine Funktion des Betrags der Differenz des ermittelten GC-Gehalts der Teilsequenz, 
GCG, zu dem optimalen GC-Gehalt, GCG opt ist, wobei unter dem GG-Gehalt der relative 
Anteil von Guanin und Cytosin, zum Beispiel in Form eines bestimmten prozentualen Anteils, 
zu verstehen ist. 

Insbesondere kann das Kriteriumsgewicht GCScore die folgende Form haben: 
GCScore = pCG-GCG opt | g -/z 

jjwobei 

GCG der tatsSchliche GC - Gehalt der Testsequenz oder eines vorbestimmten Teils 
der Testsequenz, GCG, oder der mittlere GC - Gehalt der Testsequenz oder eines vor- 
bestimmten Teils der Testsequenz, <GCG>, ist, 
GCG opi der gewunschte (optimale) GC - Gehalt ist, 

g eine positive reelle Zahl, vorzugsweise im Bereich von 1 bis 3 , insbesondere 1,3 ist, 
h eine positive reelle Zahl ist. 
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Der Faktor h ist im wesentlichen ein Gewichtungsfaktor, welcher das relative Gewicht des 
Kriteriumsgewichts GCScore gegentiber den anderen Kriteriumsgewichten definiert. Vor- 
zugsweise wird h so gewahlt, daB der Betrag des maximal erreichbaren Wertes von GCScore 
in einem Bereich von einem Hundertstel bis zu dem Hundertfachen eines anderen Kriteriums- 
gewichtes, insbesondere aller Kriteriumsgewichte, welche keine AusschluBbedingung dar- 
stellen, wie zum Beispiel die Gewichte fur ein erwtinschtes bzw. unerwtinschtes Sequenzmo- 
tiv, betragt. 

Zur Bestimmung des mittleren GC-Gehalts kann vorgesehen sein, daB ein auf eine bestimmte 
Basenposition bezogener lokaler GC-Gehalt durch den GC-Gehalt auf einem Fenster be- 
stimmter GrSBe definiert wird, welches diese Base enthalt und welches insbesondere bezttg- 
lich dieser Base zentriert sein kann. Dieser lokale GC-Gehalt wird dann tiber die Testsequenz 
Oder einen Teilbereich der Testsequenz, insbesondere Uber die m Optimierungspositionen, 
gemittelt, wobei auch bier sowohl ein arithmetisches als auch ein geometrisches Mittel ver- 
wendet werden kann. Verwendet man einen auf diese Weise definierten mittleren GC-Gehalt, 
ergeben sich geringere Schwankungen zwischen Testsequenzen mit einer verscbiedenen Lan- 
gen. 

Die Erfindung kann vorsehen, daB der GC-Gehalt fiber einem Fenster ermittelt wird, welches 
gr6Ber als der Bereich der m Optimierungspositionen ist und diesen einschlieBt. Wenn die 
Optimierungspositionen ein zusammenhangendes Variationsfenster bUden, kann vorgesehen 
sein, dafi b Basen vor und/oder nach dem Variationsfenster in die Bestimmung des Kriteri- 
umsgewichts fur den GC-Gehalt (GCScore) einbezogen werden, wobei b in einem Bereich 
von 15 bis 45 Basen (entspricht 5 bis 15 Codons), vorzugsweise in einem Bereich von 20 bis 
30 Basen liegen kann. 

Die Erfindung kann weiterhin vorsehen, daB, soweit die Gtitefunktion maximiert wird, bei der 
Ermittlung des Werts der Gtitefunktion fur jedes Vorkommen eines nicht erlaubten oder un- 
erwtinschten Sequenzmotivs ein fester Betrag abgezogen und fur jedes erwtinschte oder ge- 
forderte Motiv ein fester Betrag addiert wird (bei einer Minimierung der Gtitefunktion verhalt 
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es sich umgekehrt). Bei unerwttnschten oder geforderten Motiven kann dieser Betrag deutlich 
groUer sein als alle anderen Kriteriumsgewichte, so dafi die anderen Kriterien demgegenuber 
nicht ins Gewicht fallen. Dadurch wird ein AusschluBkriterium realisiert, wahrend gleichzei- 
tig eine Differenzierung danach stattfindet, ob ein Motiv einmal oder mehrfach aufgetreten 
ist. Ebenso lafit sich jedoch auch dann noch eine sinnvolle Giitefunktion definieren bzw. eine 
Bewertung der Testsequenzen mit der Giitefunktion durchfuhren, wenn die Bedingung hin- 
sichtlich des Sequenzmotivs (Nichtvorhandensein eines bestimmten Motivs/Vorhandensein 
eines bestimmten Motivs) fur alle in einem Iterationsschritt erzeugten Testsequenzen nicht 
erftillt werden kann. Dies wird insbesondere dann der Fall sein, wenn die LSnge n der Testse- 

•quenzen relativ klein gegentiber N ist, da aufgrund der vorgegebenen Aminosauren der Pro- 
teinsequenz ein bestimmtes Motiv haufig erst bei grofleren n auftreten kann. 

Die Erfindung kann weiterhin vorsehen, dafi die gesamte Testsequenz oder ein Teil davon 
daraufhin iiberpriift wird, ob bestimmte partielle Sequenzabschnitte oder zu bestimmten parti- 
ellen Sequenzabschnitten ahnliche Sequenzabschnitte in einem anderen Bereich der Testse- 
quenz oder eines gegebenen Bereichs der Testsequenz auftreten oder ob bestimmte partielle 
Sequenzabschnitte oder zu bestimmten partiellen Sequenzabschnitten ahnliche Sequenzab- 
schnitte in der invers komplementaren Testsequenz oder eines Teils der invers komplementa- 
ren Testsequenz vorkommen, und in Abhangigkeit hiervon ein Kriteriumsgewicht fur Se- 
quenzwiederholungen (repeats) und/oder inverse Sequenzwiederholungen (inverse repeats) 

•berechnet wird. Im Regelfall wird dabei die Sequenz nicht nur darauf uberpriift, ob ein be- 
stimmter Sequenzabschnitt identisch in der Testsequenz bzw. der invers-komplementaren 
Testsequenz bzw. eines Teilbereichs davon enthalten ist, sondem auch darauf, ob eine ahnli- 
che, also nur teilweise iibereinstimmende Sequenz in der Testsequenz bzw. der invers- 
komplementaren Testsequenz bzw. eines Teils davon enthalten ist. Algorithmen zum Auffin- 
den von globalen Ubereinstimmungen (Global-Alignment-Algorithmen) oder lokalen t)ber- 
einstimmungen (Local Alignment-Algorithmen) zweier Sequenzen sind in der Bioinformatik 
allgemein bekannt. Zu den geeigneten Verfahren zahlen beispielsweise die in der Bioinfor- 
matik allgemein bekannten Dynamic Programming - Algorithmen, z.B. der sogenannte 
Needleman-Wunsch-Algorithmus fur globales Alignment und der Smith- Waterman- 
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Algorithmus fur lokales Alignment. Insoweit wird beispielsweise axif Michael S. Waterman, 
Introduction to Computational Biology, London, New York 2000, insbesondere S. 207 bis 
209 oder Dan Gusfield, Algorithms on Strings, Trees and Sequences, Cambridge, 1999, ins- 
besondere S. 215 bis 235, verwiesen. 

Die Erfindung kann insbesondere vorsehen, daJJ jede Wiederholung eines partiellen Sequenz- 
abschnittes in einem anderen Teil der Testsequenz oder eines vorgegebenen Bereichs der 
Testsequenz mit einem bestimmten Gewicht gewichtet wird, welches ein MaB fur den Grad 
der Obereinstimmung und/oder die GroBe der zueinander ahnlichen Abschnitte darstellt, und 

•daB die Gewichte der einzelnen Wiederholungen zur Ermittlung des Kriteriumsgewichts be- 
treffend die Wiederholimgen bzw. invers komplementaren Wiederholungen addiert werden. 
Es kann ebenfalls vorgesehen sein, dafl die Gewichte der einzelnen Wiederholungen mit ei- 
nem vorgegebenen Exponenten, dessen Wert vorzugsweise zwischen 1 und 2 liegt, potenziert 
werden und anschlieBend die Summation zur Ermittlung des Kriteriumsgewichts betreffend 
die Wiederholungen bzw. invers komplementare Wiederholungen durchgefuhrt wird. Dabei 
kann vorgesehen sein, daB Wiederholungen unterhalb einer bestimmten Lange und/oder Wie- 
derholungen, deren Gewichtsanteil unterhalb einer gewissen Schwelle liegt, nicht beriicksich- 
tigt werden. Die Erfindung kann vorsehen, daB zur Berechnung des entsprechenden Kriteri- 
umsgewichts nur die Wiederholungen oder invers komplementaren Wiederholungen eines 
partiellen Sequenzabschnitts berucksichtigt werden, der in einem vorgegebenen Teilbereich 

•der Testsequenz (Testbereich), z.B. an dessen Ende und/oder in einem Variationsfenster liegt. 
Beispielsweise kann vorgesehen sein, daB nur die letzten 36 Basen der Testsequenz daraufhin 
iiberpriift werden, ob ein bestimmter Sequenzabschnitt innerhalb dieser 36 Basen mit einem 
anderen Sequenzabschnitt der gesamten Testsequenz oder der gesamten invers komplementa- 
ren Testsequenz ubereinstimmt. 

Die Erfindung kann vorsehen, daB bei den Kriteriumsgewichten betreffend Wiederholungen, 
invers komplementare Wiederholimgen und/oder DNS-Motive nur der oder die M Abschnitte 
der Testsequenz berucksichtigt werden, welche den groBten bzw. betragsmSBig groBter Bei- 
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trag zu dem Kriteriumsgewicht liefern, wobei M eine natiirliche Zahl, vorzugsweise zwischen 
1 und 10, ist. 

GemaB einer AusfQh^ungsform der Erfindung kann vorgesehen sein, daB eine Matrix gene- 
riert wird, deren Spaltenzahl der Anzahl der Positionen des Bereichs der Testsequenz (Testbe- 
reich) entspricht, der auf Wiederholungen in anderen Bereichen iiberpriift werden soli, und 
dessen Zeilenzahl der Anzahl der Positionen des Bereichs der Testsequenz entspricht, mit 
dem verglichen werden soil (Vergleichsbereich). Sowohl der Testbereich als auch der Ver- 
gleichsbereich konnen die gesamte Testsequenz umfassen. 

^j^Die Erfindung kann weiterhin vorsehen, daB die gesamte Gewichtsfunktion GesScore sich 
wie folgt bestimmt: 

GesScore = CUScore - GCScore - REPScore - SiteScore, 

wobei CUScore das Kriteriumsgewicht fur die Codon Usage ist, GCScore das Kriteriumsge- 
wicht fiir den GC-Gehalt ist, REPScore das Kriteriumsgewicht fiir Wiederholungen und in- 
vers komplementare Wiederholungen von gleichen oder Shnlichen Sequenzabschnitten ist und 
SiteScore das Kriteriumsgewicht fiir das Auftreten von unerwOnschten bzw. geforderten Mo- 
tiven ist. 

^^Das Gewicht REPScore kann gemaB einer Ausflihrungsform der Erfindung aus einer Summe 
von zwei Bestandteilen bestehen, von denen der erste das Kriteriumsgewicht fur die Wieder- 
holung von gleichen oder Shnlichen Sequenzabschnitten in der Testsequenz selbst bzw. eines 
Teilbereichs davon angibt und der zweite Bestandteil das Kriteriumsgewicht fiir invers kom- 
plementare Wiederholungen von gleichen oder Shnlichen Sequenzabschnitten in der Testse- 
quenz oder eines Teilbereichs davon angibt. • 

Wenn die Gtitefunktion sich aus Anteilen mehrerer Testkriterien zusammensetzt, insbesonde- 
re dann, wenn die Gtitefunktion aus einer Linearkombination von Kriteriumsgewichten be- 
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steht, muB in einem Iterationsschritt eine Testsequenz nicht notwendigerweise nach alien 
Kriterien bewertet werden. Vielmehr kann die Bewertung bereits dann abgebrochen werden, 
wenn absehbar ist, daB der Wert der Gtttefunktion geringer oder, allgemeiner gesprochen, 
weniger optimal, als der Wert der Gtttefunktion einer bereits bewerteten Testsequenz ist! Bei 
den vorangehend beschriebenen Ausfuhrungsformen gehen die meisten Kriterien, wie die 
Kriteriumsgewichte fur repetitive Elemente, auszuschlieBende Motive usw., negativ in die 
Gtttefunktion ein. Wenn nach Berechnung der Kriteriumsgewichte, welche positiv in die Gtt- 
tefunktion eingehen und ggf. einem Teil der Kriteriumsgewichte, welche negativ in die Gttte- 
funktion eingehen, sich bei der Aufsummation entsprechend der durch die Gtttefunktion defi- 
nierten Linearkombination der entsprechenden bereits berechneten Kriteriumsgewichte einen 
Wert ergibt, der kleiner ist als ein bereits berechneter Wert der vollstandigen Gutefunktion fur 
eine andere Testsequenz, kann die aktuell bewertete Testsequenz bereits" ausgeschieden wer- 
den. Ebenso kann zum Beispiel dann, wenn ein Kriteriumsgewicht betragsmafiig wesentlich 
grdfier ist als alle anderen Gewichte, haufig die Bewertung bereits nach der Ermittlung des 
entsprechenden Kriteriumsgewichts abgebrochen werden. Wenn beispielsweise in einer ersten 
Testsequenz ein unerwttnschtes Motiv nicht aufgetaucht ist und in einer zweiten Testsequenz 
das unerwttnschte Motiv auftaucht, kann die zweite Testsequenz sofort ausgeschlossen wer- 
den, da das Kriteriumsgewicht fur die Motivsuche so groB ist, daB es nicht durch andere Kri- 
teriumsgewichte kompensiert werden kann. 

Insbesondere kann die Erfindung vorsehen, daB bei Ausfuhrungsformen, bei denen die Gttte- 
funktion iterativ berechnet werden kann, zumindest bei einer Iteration eine obere (bzw. bei 
Optimierung auf das Minimum der Gtttefunktion untere) Grenze bestimmt wird, unterhalb 
(bzw. oberhalb) derer der Wert der vollstandigen Gtttefunktion liegt, und die Iteration der 
Gtttefunktion abgebrochen wird, wenn dieser Wert unter (bzw. ttber) dem Wert der vollstan- 
digen Gutefunktion fur eine Testsequenz liegt, der vorangehend ermittelt wurde. 

Die Erfindung kann in diesen Fallen vorsehen, daB im weiteren Verfahren fur diese Testse- 
quenz als Wert der Gtttefunktion die besagte obere bzw. untere Grenze, falls erforderlich, 
verwendet wird und/oder daB die entsprechende Testsequenz in dem Algorithms ausgeschie- 
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den wird, etwa dadurch, daB die Variable fur die optimierte Testsequenz mit einer vorange- 
hend aufgefundenen Testsequenz besetzt bleibt, bei der die Gutefunktion einen hoheren Wert 
als die oben genannte Grenze, und der Algorithmic zu der Bewertung der nachsten Testse- 
quenz iibergeht. Die Erfindung kann dabei, insbesondere wenn die Giitefunktion eine Linear- 
kombination von Kriteriumsgewichten ist, vorsehen, daB in den ersten Iterationen derjenige 
Beitrag oder diejenigen Beitrage berechnet werden, deren hochster Wert bzw. deren minima- 
ler Wert den hSchsten Absolutbetrag besitzt. 

Die Erfindung kann vorsehen, daB bei einer Gutefunktion, die auf ihr Maximum optimiert 
•f^wird und die durch eine Linearkombination von Kriteriumsgewichten gebildet wird, zimachst 
^^^die positiven Anteile der Linearkombination berechnet werden und die Iteration abgebrochen 
wird, wenn in einer Iteration nach der Berechnung aller positiven Kriteriumsgewichte der 
Wert der Gutefunktion in dieser Iteration kleiner ist als der Wert der vollstandigen Gutefunk- 
tion fur eine andere Testsequenz. 

Die Erfindung kann auch vorsehen, daB eine Iteration der Gutefunktion abgebrochen wird, 
wenn in einer Iteration festgestellt wird, daB die Summe aus dem in dieser Iteration berech- 
neten Wert der Gutefunktion und dem Hochstwert des Beitrags der noch nicht berechneten 
Kriteriumsgewichte unterhalb des Werts der vollstandigen Giitefunktion einer anderen Test- 
sequenz liegt. 

m as erfindungsgemaBe Verfahren kaim den Schritt des Synthetisierens der optimierten 
Nucleotidsequenz umfassen. 

Dabei kann vorgesehen sein, daB der Schritt des Synthetisierens der optimierten Nucleotidse- 
quenz in einer Vorrichtung zum automatischen Synthetisieren von Nucleotidsequenzen, zum 
Beispiel in einem Oligonucleotidsynthesizer, stattfindet, welcher von dem Rechner angesteu- 
ert wird, der die Nucleotidsequenz optimiert. 
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Die Erfindung kann insbesondere vorsehen, dafi der Rechner, sobald der OptimierungsprozeB 
abgeschlossen ist, die ermittelten Daten ttber die optimale Nucleotidsequenz an einen Oligo- 
nucleotidsynthesizer weitergibt und diesen veranlaBt, die Synthese der optimierten Nucleo- 
tidsequenz durchzufuhren. 

Diese Nucleotidsequenz kann dann, wie gewiinscht, hergestellt werden. Zur Expression des 
Proteins wird die entsprechende Nucleotidsequenz in Wirtszellen eines Wirtsorganismus ein- 
gebracht, auf welchen sie optimiert ist und welcher dann letztendlich das Protein erzeugt. 

Die Erfindung stellt auch eine Vorrichtung zum Optimieren einer Nucleotidsequenz zur Ex- 
pression eines Proteins auf der Grundlage der Aminosaurensequenz des Proteins zur Verfii- 
gung, welche eine Recheneinrichtung aufweist, welche umfafit: 

eine Einrichtung zum Generieren einer ersten Testsequenz von n Codons, welche n 
aufeinanderfolgenden Aminosauren in der Proteinsequenz entsprechen, wobei n eine 
naturliche Zahl kleiner oder gleich N, der Zahl der Aminosauren der Proteinsequenz 
ist, 

eine Einrichtung zum Festlegen von n Optimierungspositionen in der Testsequenz, 
welche der Position von m Codons entsprechen, an denen die Besetzung mit einem 
Codon, bezogen auf die Testsequenz, optimiert werden soil, wobei m < n und m < M 
ist, 

eine Einrichtung zum Generieren einer oder mehrerer weiterer Testsequenzen aus der 
ersten Testsequenz, indem an einer oder mehreren der m Optimierungspositionen ein 
Codon der ersten Testsequenz durch ein anderes Codon ersetzt wird, welches dieselbe 
Aminosaure exprimiert, 

eine Einrichtung zum Bewerten jeder der Testsequenzen mit einer Giitefunktion und 
zum Ermitteln der hinsichtlich der Gutefunktion optimalen Testsequenz, 
eine Einrichtung zum Festlegen von p Codons der optimalen Testsequenz, welche sich 
an einem der m Optimierungspositionen befinden, als Ergebniscodons, welche die Co- 
dons der optimierten Nucleotidsequenz an den Positionen bilden, die den Positionen 
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der besagten p Codons in der Testsequenz entsprechen, wobei p eine natiirliche Zahl 
und p < m ist, 

eine Einrichtung zum Iterieren der Schritte des Generierens mehrerer Testfunktionen, 
der Bewertung der Testsequenzen und des Festlegens von Ergebniscodons, vorzugs- 
weise bis alle Codons der optimierten Nucleotidsequenz festgelegt worden sind, wobei 
in jedem Iterationsschritt die Testsequenz an den Positionen, welche Positionen von 
festgelegten Ergebniscodons in der optimierten Nucleotidsequenz entsprechen, das 
entsprechende Ergebniscodon enthalt und die Optimierungspositionen von Positionen 
von Ergebniscodons verschieden sind. 

Die vorangehend genannten Einrichtungen mussen nicht verschieden sein, sondern konnen 
insbesondere durch eine einzige Vorrichtung realisiert werden, welche die Funktionen der 
vorangehend genannten Einrichtungen realisiert. 

Die erfindungsgemaBe Vorrichtung kann allgemein eine Einrichtung zum Durchfuhren der 
Schritte der vorangehend beschriebenen Verfahren aufweisen. 

Die erfindungsgemaBe Vorrichtung kann einen Oligonucleotidsynthesizer aufweisen, welcher 
von dem Rechner so angesteuert wird, daB er die optimierte Nucleotidsequenz synthetisiert. 



K 



ei dieser Ausfuhrungsform der Erfindung kann entweder automatisch oder durch einen ent- 
sprechenden Befehl des Benutzers die optimierte Nucleotidsequenz synthetisiert werden, ohne 
daB Datentransfers, Einstellung von Parametem und dergleichen n6tig sind. 



Die Erfindung stellt auch ein Computerprogramm zur Verfugung, welches von einem Com- 
puter ausfuhrbaren Programmcode enthalt, der, wenn er auf einem Computer ausgefuhrt wird, 
den Computer veranlaBt, ein erfindungsgemaBes Verfahren durchzufuhren. 
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Dabei kann der Programmcode, wenn er auf einem Computer ausgefiihrt wird, eine Vorrich- 
tung zum automatischen Synthetisieren von Nucleotidsequenzen veranlassen, die optimierte 
Nucleotidsequenz herzustellen. 

Die Erfindung stellt auch einen computerlesbaren Datentrager zur Verfiigung, auf welchem in 
computerlesbarer Form ein erfindungsgemaBes Programm gespeichert ist. 

Die Erfindung stellt weiterhin eine nach einem erfindungsgemafien Verfahren^ hergestellte 
oder herstellbare Nukleinsaure und einen Vektor, der eine solche Nukleinsaure enthalt, zur 

• Verfiigung. Die Erfindung stellt weiterhin eine Zelle, die einen solchen Vektor oder eine sol- 
che Nukleinsaure enthalt, zur Verfiigung sowie einen nicht-menschlichen Organismus bzw. 
ein nicht-menschliches Lebewesen, das eine solche Zelle enthalt, wobei ein solches nicht- * 
menschliches Lebewesen auch ein Saugetier sein konnte. 

Wahrend bei statistischen Verfahren keinerlei Korrelation zwischen einer Sequenz in einem 
vorangehenden Iterationsschritt xind der Sequenz in einem nachfolgenden Iterationsschritt 
besteht, wird erfindungsgemaB in jedem Iterationsschritt zumindest ein Codon neu festgelegt 
Da die Testsequenz nur auf einem Teil der Gesamtsequenz variiert wird, ist das Verfahren mit 
einem geringeren Aufwand durchfuhrbar. Insbesondere ist.es moglich, in dem Variationsbe- 
reich sSmtliche mSglichen Kombinationen von Codons zu evaluieren. Die Erfindung macht 

•sich in vorteilhafter Weise den Umstand zunutze, daB langreichweitige Korrelationen inner- 
halb einer Nucleotidsequenz von untergeordneter Bedeutung sind, d.h. daB zur Erzielung ei- 
nes akzeptablen Optimierungsergebnisses die Codons an einer Position weitgehend \inabhan- 
gig von den Codons an einer weiter entfernten Position variiert werden konnen. 

Das erfindungsgemaBe Verfahren erof&iet in groBerem Umfang als die bisherigen Verfahren 
die Moglichkeit, relevante biologische Kriterien in die Bewertung einer Testsequenz einzube- 
Ziehen. Beispielsweise konnen mit dem erfindungsgemaBen Verfahren erwunschte oder un- 
erwunschte Motive in der synthetischen Nukleotidsequenz beriicksichtigt werden. Da bei ei- 
ner Motivsuche bereits ein individueiles Codon dafiir ausschlaggebend sein kann, ob ein be- 
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stimmtes Motiv vorhanden ist oder nicht, werden rein stochastische Verfahren nicht oder nur 
mit einer sehr geringen Wahrscheinlichkeit optimierte Sequenzen liefern, welche ein gefor- 
dertes Motiv enthalten. Bei dem erfindungsgemafien Verfahren ist dies jedoch deswegen 
mSglich, da iiber einem Teilbereich der Sequenz sSmtliche Codonkombinationen durchgete- 
stet werden. Gegebenenfalls kann man, um das Vorhandensein bzw. Nichtvorhandensein ei- 
nes bestimmten Sequenzmotivs zu gewahrleisten, die Anzahl m der Optimierungspositionen 
so groB machen, daB diese grOfier ist als die Zahl der Codonpositionen (oder die Anzahl der 
Basenpositionen, geteilt durch 3) des entsprechenden Motivs. Wenn die m Optimierungsposi- 
tionen zusammenhangend sind, ist damit gewahrleistet, daB das Auftauchen eines bestimmten 
Mgfr Sequenzmotivs zuverlassig erfaBt und das entsprechende Motiv in der Sequenz gewahrleistet 
bzw. aus dieser ausgeschlossen werden kann. Die numerische Berechnung der Gutefunktion 
hat besondere Vorteile bei der Verwendung von Gewichtsmatrix-Scans. Da hierbei den ver- 
schiedenen Basen einer Erkennungssequenz eine unterschiedlich starke Bedeutung fur die 
Erkennung bzw. die biologische Aktivitat zugeordnet werden kann, kann bei dem erfindungs- 
gemafien Verfahren, bei dem iiber einen Teilbereich der Sequenz alle mfiglichen Codonkom- 
binationen durchgetestet werden, die Sequenz gefunden werden, die zum Beispiel ein DNA- 
Motiv durch Eliminierung der fur die Aktivitat wichtigsten Basen am effektivsten ausschaltet 
bzw. es kann eine optimierte KompromiBlfisung unter Einbeziehung anderer Kriterien gefun- 
den werden. 

•Die Erfindung ist grundsatzlich nicht auf einen bestimmten Organismus beschrankt. Orga- 
nismen, fur welche eine Optimierung einer Nukleotidsequenz zur Expression eines Proteins 
mit dem erfindungsgemaBen Verfahren von besonderem Interesse ist, sind z.B. Organismen 
aus der folgenden Gruppe: 

Viren, insbesondere Vaccinia-Viren, 

Prokaryonten, insbesondere Escherichia coli, Caulobacter cresentus, Bacillus .subtilis, 
Mycobacterium spec, 

Hefen, insbesondere Saccharomyces cerevisiae, Schizosaccharomyces pombe, Pichia 
pastoris, Pichia angusta, 

Insekten, insbesondere Sprodoptera frugiperda, Drosopbila spec, 
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Sauger, insbesondere Homo sapiens, Macaca mulata, Mus musculus, Bos taurus, Ca- 
pra hircus, Ovis aries, Oryctolagus cuniculus, Rattus norvegicus, Chinese hamster ova- 
ry, 

monokotyle Pflanzen, insbesondere Oryza sativa, Zea mays, Triticum aestivum 
dikotyle Pflanzen, insbesondere Glycin max, Gossypium hirsutum, Nicotiana tabacum, 
Arabidopsis thaliana, Solanum tuberosum. 

Proteine, fur die eine optimierte Nucleotidsequenz mit dem erfindungsgemaBen Verfahren 
generiert werden kann, sind zum Beispiel: 

Enzyme, insbesondere Tolymerasen, Endonukleasen, Ligasen, Lipasen, Proteasen, 
Kinasen, Phosphatasen, Topoisomerasen, 
Cytokine, Chemokine, Transkriptionsfaktoren, Oncogene, 

Proteine aus thermophilen Organismen, aus cryophilen Organismen, aus halophilen 
Organismen, aus acidophilen Organismen, aus basophilen Organismen, 
Proteine mit repetitiven Sequenzelementen, insbesondere strukturgebende Proteine, 
Humane Antigene, insbesondere Tumorantigene, Tumormarker, Autoimmunantigene, 
diagnostische Marker, 

Virale Antigene, insbesondere von HAV, HBV, HCV, HIV, SIV 5 FIV, HPV, Rinovi- 
ren, Influenzaviren, Herpesviren, Poliomaviren, Hendra Virus, Dengue Virus, AAV, 
Adenoviren, HTLV, RSV, 

Antigene von Protozoen und/oder parasitaren Erregern, insbesondere Erreger von 
Malaria, Leishmania, Trypanosoma, Toxoplasmen, Amoba, 

Antigene von bakteriellen Erregern oder Pathogene, insbesondere von den Genera 
Chlamydia, Staphylococcen, Klebsiella, Streptococcus, Salmonella, Listeria, Borrelia, 
Escherichia coli, 

Antigene von Organismen der Sicherheitstufe L'4, insbesondere Bacillus anthracis, 
Ebola- Virus, Marburg-Virus, Pockenviren. 
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Die vorangehende Aufzahlung von Organismen bzw. Proteinen, fiir welche die Erfindung 
Anwendung findet, ist in keiner Weise einschrSnkend und lediglich als Beispiel zur besseren 
Veranschaulichung gedacht. 

Weitere Merkmale und Vorteile der Erfindung ergeben sich aiis der nachfolgenden Beschrei- 
bung von Ausfuhrungsbeispielen der Erfindung anhand der beigefiigten Zeichnungen. 




Figur la, lb zeigen ein Flufidiagramm eines Ausfuhrungsbeispiels des, Verfahrens 

der Erfindung, 

Figur 2 illustriert das Verhaltnis von Testsequenz, optimierter DNS-Sequenz, 

Kombinations-DNS-Sequenz und AminosSuresequenz fiir ein Ausfuh- 
rungsbeispiel der Erfindung, 

Figur 3 zeigt die Bereiche fur die Bestimmung der Sequenzwiederholung, 




Figur 4a und 4b zeigen schematisch ein Schema fiir die Bestimmung von Sequenzwie- 

derholungen, 

Figur 5a zeigt die Codon visage bei einer ausschliefilichen Optimierung auf die 

Codon usage, 



Figur 5b zeigt den GC-Gehalt bei einer ausschliefilichen Optimierung auf die 

Codon usage, 

Figur 6a zeigt die Codon usage bei Verwendung einer ersten Gutefunktion, 



Figur 6b 



zeigt den GC-Gehalt bei Verwendung einer ersten Gutefunktion, 
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Figur 7a zeigt die Codon usage bei Verwendung einer zweiten Gutefunktion, 

Figur 7b zeigt den GC-Gehalt bei Verwendung einer zweiten Gutefunktion, 

Figur 8a zeigt die Codon usage bei Verwendung einer dritten Gutefunktion, 

Figur 8b zeigt den GC-Gehalt bei Verwendung einer dritten Gutefunktion. 

Gemafi einer bevorzugten Ausfuhrungsform der Erfindung wird in einer Iteration die Wahl 
des Codons ftir die i-te Aminosaure einer Aminos&uresequenz der Lange N betrachtet. Dazu 
werden samtliche moglichen Codonkombinationen der verfUgbaren Codons ftir die Ami- 
nosauren an den Positionen i bis i + m - 1 gebildet Diese Positionen bilden ein Variationsfen- 
ster und legen die Optimierungspositionen fest, auf denen die Sequenz variiert werden soli. 
Jede Kombination von Codons auf diesem Variationsfenster resultiert in einer DNS-Sequenz 
mit 3 m Basen, die im folgenden Kombinations-DNS-Sequenz (KDS) genannt wird. In jedem 
Iterationsschritt wird zu jeder KDS eine Testsequenz gebildet, welche die KDS an ihrem Ende 
enthait. Im ersten Iterationsschritt bestehen die Testsequenzen nur aus den Kombinationsr 
DNS-Sequenzen. Die Testsequenzen werden mit einer nachfolgend naher beschriebenen Gtl- 
tefunktion gewichtet und das erste Codon derjenigen KDS, welche den maximalen Wert der 
Giitefunktion aufweist, wird fiir alle weiteren Iterationen als Codon der optimierteii Nucleo- 
:idsequenz (Ergebniscodon) beibehalten. Dies bedeutet, daB dann, wenn in einer Iteration das 
i-te Codon festgelegt wurde, jede der Testsequenzen in der nachsten Iteration dieses Codon an 
der Position i enthait und an den Positionen i + 1 bis i + m die Codons der verschiedenen 
Kombmations-DNS-Sequenzen. Bei der j-ten Iteration bestehen also alle Testsequenzen an 
den Positionen 1 bis j - 1 aus den in den vorangehenden Iterationen als optimal aufgefunde- 
nen Codons, wahrend die Codons an den Positionen j bis j + m - 1 variiert werden. Die Giite 
der DNS-Sequenz laBt sich fiir jedes individuelle Testkriterium als Kriteriumsgewicht (Ein- 
zelscore) ausdriicken. Durch Addition der nach benutzerdefmierten Vorgaben gewichteten 
Kriteriumsgewichte wird ein Gesamtgewicht (Gesamtscore) gebildet, welches den Wert der 
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Gutefunktion fur die gesamte Testsequenz angibt Wenn j = N - m + 1 ist, ist die optimale 
Testsequenz gleichzeitig die optimierte Nucleotidsequenz nach dem Verfahren der Erfindung. 
Daher werden in diesem (letzten) Schritt sSmtliche Codons der optimal KDS als Codons der 
optimierten Nucleotidsequenz festgelegt. 

Der vorangehend beschriebene Ablauf ist schematisch in Figur 1 illustriert. Der Algorithmus 
beginnt bei der ersten Aminosaure (i=l). Es wird nun eine erste KDS der Codons fiir die 
Aminosauren i bis i + m -1 gebildet (bei der ersten Iteration sind dies die Aminosauren 1 bis 
m). Diese KDS wird mit der bereits optimierten DNS-Sequenz zu einer Testsequenz zusam- 
mengefiigt. Im ersten Schritt besteht die optimierte DNS-Sequenz aus 0 Elementen. Daher 
besteht die Testsequenz bei der ersten Iteration nur aus der zuvor gebildeten (ersten) KDS. 



Die Testsequenz wird nun nach benutzerdefinierten Kriterien eyaluiert. Der Wert einer Gtite- 
funktion wird berechnet, indem Kriteriumsgewichte fur verschiedene Bewertungskriterien 
berechnet und in einer Bewertungsfunktion verrechnet werden. Wenn der Wert der Gtitefunk- 
tion besser als ein gespeicherter Wert der Gtitefunktion ist, wird der neue Wert der Gutefunk- 
tion gespeichert. Gleichzeitig wird auch das erste Codon der zugehSrigen KDS, welches die 
Aminosaure i reprSsentiert, gespeichert. Wenn der Wert der Gtitefunktion schlechter als der 
gespeicherte Wert ist, erfolgt keine MaBnahme. Im nachsten Schritt wird tiberpruft, ob alle 
.mSglichen KDS gebildet worden sind. Ist dies nicht der Fall, wird die nachstmogliche KDS 
Jgebildet und mit der bereits optimierten DNS-Sequenz zu einer neuen Testsequenz zusam- 
mengefiigt. Die Schritte des Evaluierens, des Bestimmens einer GUtefunktion und des Ver- 
gleichs des Wertes der Gtitefunktion mit einem gespeicherten Wert wiederholen sich dann. 
Sind dagegen alle moglichen KDS gebildet worden, wird, sofem i + N - m + 1 ist, das ge- 
speicherte Codon an die bereits gebildete optimierte DNS-Sequenz an der Position i angeftigt. 
Bei der ersten Iteration wird die optimierte DNS-Sequenz dadurch gebildet, daB das gespei- 
cherte Codon auf die Position 1 der optimierten DNS-Sequenz gesetzt wird. Der Prozefi wie- 
derholt sich dann fur die nachste Aminosaure (i + 1). Ist dagegen i = N - m + 1, wird die ge- 
samte KDS der optimalen Testsequenz an die bereits gebildete optimierte DNS-Sequenz an- 
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gehangt, da sie bereits hinsichtlich der Bewertungskriterien optimiert ist. Es folgt dann die 
Ausgabe der optimierten Sequenz. 

Das Verhaltnis der verschiedenen Bereiche ist diagrammatisch in Figur 2 dargestellt Man 
erkennt die Kombinations-DNS-Sequenz und den Bereich der bereits festgelegten optimierten 
DNS-Sequenz. ' 

Der Parameter m kann in weiten Bereichen variiert werden, wobei im Sinne einer bestmogli- 
chen Optimierung eine moglichst hobe Zahl von variierten Codons angestrebt wird. Mit den 
| derzeit verfugbaren Rechnern laJJt sich mit einer GroBe des Variationsfensters von m = 5 bis 
m = 10 in einer akzeptablen Zeit ein sinnvolles Optimierungsergebnis erreichen. 

Neben der individuellen Gewichtung der Kriteriumsgewichte kSnnen sowohl das Gesamtge- 
wicht als auch die Kriteriumsgewichte durch geeignete mathematische Funktionen definiert 
sein, die gegenttber den einfachen Relationen, wie Differenz oder Proportion, modifiziert 
sind, z.B. durch abschnittsweise definierte Funktionen, welche einen Schwellenwert definie- 
ren, oder nichtlineare Funktionen. Ersteres ist beispielsweise bei der Bewertung von Wieder- 
holungen oder invers komplementaren Wiederholungen sinnvoll, die erst ab einer bestimmten 
GroBe beriicksichtigt werden sollen. Letzteres ist z.B. bei der Bewertung der Codon usage 
oder des CG-Gehalts sinnvoll. 

Nachfolgend werden verschiedene beispielhafte Gewichtungskriterien erlautert, die erfin- 
dungsgemSB verwendet werden kSnnen, ohne dafl die Erfindung auf diese Kriterien bzw. die 
nachfolgend beschriebenen Gewichtungsfunktionen beschrankt ware. 

Die Anpassung der Codon usage des synthetischen Gens an die Codonusage des Wirtsorga- 
nismus ist eines der wichtigsten Kriterien bei der Optimierung. Hierbei muB die unterschied- 
liche Degeneriertheit der verschiedenen Codons (einfach bis sechsfach) beriicksichtigt wer- 
den. Hierfur geeignete GrSBen sind z.B. die RSCU (relative synonymous codon usage) oder 
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relative Haufigkeiten (Relative Adaptiveness), die auf die Haufigkeit des am meisten von dem 
Orgariismus genutzten Codons normiert sind (das am meisten genutzte Codon hat also die 
„Codon usage" 1), vgl. P. M. Sharp, W. H. Li, Nucleic Acid Research 15 (1987), 1281 bis 
1295. 

Zur Bewertung einer Testsequenz wird bei einer Ausrubxungsform der Erfindung die durch- 
schnittliche Codon usage auf dem Variationsfenster verwendet. 

t 

J ' " ' 

Bei der Bewertung des GC-Gehalts ist eine mSglichst geringe Abweichung des durchschrtitt- 
M M lichen GC-Gehaltes von dem vorgegebenen gewttnschten GC-Gehalt erforderlich. Weiterhin 
ist es anzustreben, Schwankungen des GC-Gehaltes ttber dem Verlauf der Sequenz gering zu 
halten. 

Zur Evaluierung einer Testsequenz wird der durchschnittliche prozentuale GC-Gehalt desje- 
nigen Bereichs der Testsequenz ermittelt, der die KDS und vor dem Beginn der KDS liegende 
Basen umfaflt, deren Anzahl b vorzugsweise zwischen 20 und 30 Basen liegt. Das Kriteri- 
umsgewicht wird aus dem Absolutwert der Differenz zwischen dem gewtinschten GC-Gehalt 
und dem ermittelten GC-Gehalt fur die Testsequenz ermittelt, wobei dieser Absolutwert als 
Argument in eine nichtlineare Funktion, z.B. in eine Exponentialfunktion eingehen kann. 

^^^Wenn das Variationsfenster eine Breite von mehr als 10 Codonpositionen hat, konnen 
Schwankungen des GC-Gehalts innerhalb der KDS von Bedeutung sein. In diesen Fallen 
wird, wie vorangehend erlautert, der GC-Gehalt fur jede Basenposition auf einem Fenster 
ermittelt, das bezuglich der Basenposition in einer bestimmten Weise ausgerichtet ist und eine 
bestimmte Anzahl, zum Beispiel 40 Basen, umfassen kann, und die Absolutwerte der Diffe- 
renz zwischen dem gewunschten GC-Gehalt und dem fur jede Basenposition ermittelten „lo- 
kalen" GC-Gehalt werden aufsummiert. Teilt man die Summe durch die Anzahl der ermittel- 
ten Einzelwerte, so erhalt man als .Kriteriumsgewicht die durchschnittliche Abweichung von 
dem gewunschten GC-Gehalt Bei dem vorangehend beschriebenen Vorgehen kann die Lage 
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des Fensters so definiert sein, daB die besagte Basenposition zum Beispiel am Rand oder im 
Zentrum des Fensters liegt Altemativ kann auch als Kriterium der Absolutbetrag der Diffe- 
renz zwischen dem tatsachlichen GC-Gehalt in der Testsequenz oder auf einem Teilbereich 
davon zu dem gewiinschten GC-Gehalt oder der Absolutbetrag der Differenz zwischen dem 
Mittelwert des vorangehend erwShnten „lokalen" GC-Gehalts fiber die Testsquenz oder einem 
Teil davon und dem gewiinschten GC-Gehalt als Kriterium verwendet werden. In einer weite- 
ren Abwandlung kann auch vorgesehen sein, daB das entsprechende Kriteriumsgewicht pro- 
portional zu dem Quadrat der Differenz zwischen dem tatsachlichen GC-Gehalt und dem ge- 
wttnschten GC-Gehalt, dem Quadrat der Differenz zwischen dem fiber die Basenpositionen 
gemittelten GC-Gehalt und dem gewiinschten GC-Gehalt bzw. der Mittelwert des Quadrats 
der Differenzen zwischen dem lokalen GC-Gehalt und dem gewQnschten GC-Gehalt als Kri- 
terium verwendet werden. Das Kriteriumsgewicht fur den GC-Gehalt hat das entgegenge- 
setzte Vorzeichen wie das Kriteriumsgewicht fur die Codon usage. 

Lokale Erkennungssequenzen bzw. biophysikalische Charakteristika spielen in der Zell- und 
Molekularbiologie eine entscheidende Rolle. Eine unbeabsichtigte Generierung entsprechen- 
der Motive innerhalb der Sequenz des synthetisierten Gens kann unerwiinschte Wirkungen 
haben. Zum Beispiel kann die Expression stark reduziert oder ganz unterdriickt werden; es 
kann auch eine fur den Wirtsorganismus toxische Wirkung entstehen. Bei der Optimierung 
der Nucleotidsequenz ist es daher wttnschenswert, die unbeabsichtige Generierung solcher 
Motive auszuschlieBen. Im einfachsten Fall laBt sich die Erkennungssequenz durch eine gut 
charakterisierte Consensussequenz (z.B. Restriktionsenzym-Erkennungssequenz) unter Ver- 
wendung entsprechender IUPAC-Basensymbole darstellen. Fiihrt man eine einfache Regular- 
Expressionssuche innerhalb der Testsequenz durch, so erhait man fur die Berechnung des 
entsprechenden Gewichts die Anzahl der aufgefundenen Positionen. LaBt man eine bestimmte 
Anzahl von Fehlstellen (mismatches) zu, muB die Anzahl der Fehlstellen bei einer erkannten 
Obereinstimmung bei der Ermittlung der Gewichtsfunktion berucksichtigt werden, zum Bei- 
spiel derart, daB das lokale Gewicht fur eine Basenposition umgekehrt proportional zu der 
Anzahl der Basen ist, die einem lUPAC-Consensussymbol zugeordnet sind. In vielen Fallen 
ist die Consensussequenz jedoch nicht ausreichend eindeutig (vgl. zum Beispiel K. Quandt 
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u.a., Nucleic Acid Research 23 (1995), 4878). In solchen Fallen kann man auf eine Matrizen- 
darstellung der Motive zuriickgreifen oder andere Erkennungsmethoden, z.B. mittels neuro- 
naler Netze, verwenden, 

Bei der bevorzugten Ausfilhrungsform der Erfindung wird fur jedes aufgefundene Motiv ein 
Wert zwischen 0 und 1 bestimmt, der im Idealfall die Bindungsaffinitat der gefundenen (po- 
tentiellen) Stelle bzw. deren biologische Aktivitat oder auch deren Erkennungssicherheit wi- 
derspiegelt. Fur die Berechnung des Kriteriumsgewichts fur DNS-Motive wird /lieser Wert 
mit einem geeigneten Gewichtungsfaktor multipliziert und die Einzelwerte fiir jede aufgefun- 
dene Obereinstimmung werden addiert. 

Das Gewicht fur unerwiinschte Motive geht mit dem umgekehrten Vorzeichen wie dasjenige 
fiir die Codon usage in die Gesamtgutefunktion ein. 

In der gleichen Weise kann in die Gewichtung das Vorhandensein bestimmter erwiinschter 
DNS-Motive, z.B. RE-Schnittsequenzen, bestimmte Enhancersequenzen oder immunstimu- 
latorische bzw. immunsupprimierende CpG-Motive einbezogen werden. Das Gewicht fur 
erwilnschte DNS-Motive geht mit dem gleichen Vorzeichen wie das Gewicht fiir die Codon 
usage in die Gesamtbewertung ein. 

'stark repetitive Sequenzabschnitte konnen zum Beispiel zu einer geringen genetischen Stabi- 
lity ftihren. Die Synthese repetitiver Abschnitte ist auch wegen der Gefahr von Fehlhybridi- 
sierung deutlich erschwert. GemaB der bevorzugten AusfUhrungsform der Erfindung geht 
daher in die Bewertung einer Testsequenz ein, ob diese an unterschiedlichen Stellen identi- 
sche oder einander ahnliche Sequenzabschnitte enthalt. Das Vorhandensein entsprechender 
Abschnitte kann beispielsweise mit Hilfe einer Variante eines Dynamic Programming - Algo- 
rithms zur Generierung eines lokalen Alignments der einander ahnlichen Sequenzabschnitte 
festgestellt fyerden. Wichtig bei dieser Ausfiilirungsform der Erfindung ist, dafi der verwen- 
dete Algorithmus einen Wert generiert, welcher geeignet ist, den Grad der Obereinstimmung 
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und/oder die Lfinge der einander Shnlichen Sequenzabschnitte quantitativ zu beschreiben 
(Alignmentgewicht). Hinsichtlich weiterer Einzelheiten betreffend einen moglichen Algo- 
rithms wird auf die oben genannten Lehrbiicher von Gusfield oder Waterman bzw. M. S. 
Waterman, M. Eggert, J. Mol. Biology, (1987) 197, 723 bis 728, verwiesen. 

Zur Berechnung des Kriteriumsgewichts hinsichtlich der repetitiven Elemente summiert man 
die Einzelgewichte aller lokalen Alignments, bei denen das Alignmentgewicht einen be- 
stimmten Schwellenwert tibersteigt Die Addition dieser Einzelgewichte ergibt jdas -Kriteri- 
umsgewicht, welches die Repetitivitat der Testsequenz charakterisiert. 

GemSB einer Abwandlung der vorangehend beschriebenen Ausfuhrungsform wird nur der 
eine Bereich am Ende der Testsequenz, welcher das Variationsfenster sowie eine gewisse 
Anzahl weiterer Basen, z.B. 20 bis 30, umfafit, daraufhin fiberpruft, ob ein Teilabschnitt der 
Testsequenz in diesem Bereich einer anderen Stelle der Testsequenz in gleicher oder ahnli- 
cher Weise vorkommt. Dies ist schematisch in Figur 3 dargestellt. Die durchgezogene Linie in 
der Mitte stellt die gesamte Testsequenz dar. Die obere Linie stellt die KDS dar, wShrend der 
untere Bereich den Vergleichsbereich der Testsequenz darstellt, welcher mit der restlichen 
Testsequenz auf ubereinstimmende Sequenzabschnitte uberpriift wird. Die Oberprufung der 
Testsequenzen auf ubereinstimmende oder ahnliche Abschnitte des Vergleichsbereichs (vgl. 
Figur 3) mit der Dynamic Programmmg-Matrixtechnik ist in Figur 4a und 4b illustriert. Figur 
4a zeigt den Fall, dafi ahnliche oder Ubereinstimmende Sequenzabschnitte A und B in dem 
Vergleichsbereich selbst vorhanden sind. Figur 4b zeigt den Fall, daJ3 ein Sequenzabschnitt B 
in dem Vergleichsbereich mit einem Sequenzabschnitt A aufierhalb des Vergleichsbereichs 
ubereinstimmt oder diesem Shnlich ist. 

Als Alternative zu der Summation von Einzelgewichten kann auch vorgesehen sein, dafi nur 
dasjenige AUgnment, das zu dem hochsten Einzelgewicht fuhrt oder, allgemeiner, nur die 
Alignments mit den m grofiten Einzelgewichten, beriicksichtigt werden. 



BOEHMERT & BOEHMERT 
-35- 



Mit der vorangehend beschriebenen Gewichtung konnen sowohl Shnliche Sequenzen, die z.B. 
am Anfang und am Ende der Testsequenz vorhanden sind, als auch sogenannte Tandem- 
Repeats, bei denen sich die ahnlichen Bereiche beide am Ende der Sequenz befinden, erfafit 
werden. 




Invers komplementare Wiederholungen kfinnen in der gleichen Weise wie einfache Wieder- 
holungen behandelt werden. Die potentielle Bildung von Sekundarstrukturen auf RNA-Ebene 
oder cruciformer Strukturen auf DNS-Ebene laBt sich an der Testsequenz durch jlas Vorhan- 
densein solcher invers komplementSrer Wiederholungen (inverse Repeats) erkennen. Cruci- 
forme Strukturen auf DNS-Ebene konnen die Translation behindem und zu genetischer Insta- 
bilitat fuhren. Man vermutet, dafl die Bildung von Sekund&strukturen auf RNA-Ebene sich 
negativ auf die Translationseffizienz auswirkt. Dabei sind insbesondere solche inverse Re- 
peats von Bedeutung, die Haamadelschleifen bzw. cruciforme Strukturen ausbilden. Fehlhy- 
bridisierungen oder Haamadelschleifen kOnnen sich auch bei der Synthetisierung jener aus 
Oligonucleotiden negativ auswirken. 

Die Oberpriifimg auf invers komplementare Wiederholungen erfolgt vom Grundsatz her ana- 
log zur ObeiprOfung auf einfache Wiederholungen. Die Testsequenz bzw. der Vergleichsbe- 
reich der Testsequenz wird jedoch mit der invers komplementaren Sequenz verglichen. In 
einer Fortbildung kann die thermodynamische Stabilitat bei dem Vergleich („alignment") 
beriicksichtigt werden, im einfachsten Fall durch die Verwendung einer Scoring Matrix. Da- 
bei wird z.B. ein Match CC bzw. GG aufgrund der stabileren Basenpaarung starker gewichtet 
als eine Uberweinstimmung TT oder AA. Entsprechend k6nnen auch Fehlstellen (mismat- 
ches) variabel gewichtet werden. Eine spezifischere Gewichtung kann dadurch erfolgen, daB 
Nearest-Neighbour-Parameter zur Berechnung der thermodynamischen Stabilitat verwendet 
werden, was allerdings den Algorithmus komplexer macht. Hinsichtlich eines m5glichen.Al- 
gorithmus wird beispielsweise auf L. Kaderali, A. Schliep, Bioinformatics 18 (10) 2002, 
1340 bis 1349 verwiesen. 
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Bei alien Bewertungskriterien kann die Erfindung vorsehen, daB die entsprechende Gewich- 
timgsfunktion positionsabhangig ist. Beispielsweise kann die Generierung einer RE- 
Schnittsequenz an einer bestimmten Stelle starker gewichtet werden oder Sekundarstrukturen 
konnen am 5'-Ende starker gewichtet werden, da sie dort starker inbibierend sind. Ebenso 
kann der Codonkontext, d.h. das oder die Vorganger- bzw. Nachfolgerkodons, berilcksichtigt 
werden. Weiterhin kann fur bestimmte Codons, deren Verwendung an den DomSnengrenzen 
eine Rolle bei der cotranslatorischen Proteinfaltung spielt, ein Beitrag zur Gutefunktion vor- 
gesehen sein, der davon abhangt, ob dieses Codon naher an der Domanengrenze liegt oder 
nicht. Weitere Kriterien, die in die Gutefunktion eingehen kfinnen, sind z.B. biophysikalische 
Eigenschaften, wie die Steifigkeit oder die Krummung der DNS-Sequenz Je nach Anwen- 
dungsgebiet k6nnen auch Kriterien einflieBen, die mit weiteren DNS-Sequenzen assoziiert 
sind. Beispielsweise ist im Bereich der DNS-Vakzinierung entscheidend, daB die fur die Vak- 
zinierung verwendeten Sequenzen keine signifikante Ahnlichkeit mit den pathogenen Ele- 
menten des natiirlichen Virusgenoms aufweisen, urn unerwttnschte Rekombinationsereignisse 
sicher auszuschlieBen. In gleicher Weise sollten die fur gentherapeutische Zwecke verwende- 
ten Vektoren eine mSglichst geringe Ahnlichkeit zu Sequenzen des menschlichen Genoms 
aufweisen, um einerseits homologe Rekombination in das menschliche Genom auszuschlie- 
Ben und andererseits ein selektives Abschalten von vitalen Genen in Transkriptom durch 
RNA-Interferenz-Phanomene (RNAI - Phanomene) zu vermeiden. Letzteres ist auch von all- 
gemeiner Bedeutung bei der HersteUung von rekombinanten Zellfabriken und insbesondere 
bei transgenen Organismen. 

ErfindungsgemaB konnen die verschiedenen Kriteriumsgewichte fur verschiedene Kriterien 
unterschiedlich in die Gesamtgewichtsfunktion eingehen. Dabei ist der durch das entspre- 
chende Kriterium maximal erreichbare Unterschied in dem Wert der Gutefunktion fur die 
gebildete Testsequenz wichtig. Einen hohen Anteil an bestimmten Kriteriumsgewichten ha- 
ben jedoch DNA-Basen, welche durch unterschiedliche KDS nicht geandert werden konnen, 
wie z.B. die in die Berechnung des durchschnittlichen GC-Gehalts miteinbezogenen Nucleo- 
tide vor der KDS und die innerhalb synonymer Codons unveranderlichen Nucleotide Die in- 
dividuelle Gewichtung eines Kriteriums gegenfiber anderen Kriterien kann daher davon ab- 
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hangig gemacht werden, wie stark die Giite der Testsequenz von der Zielvorgabe abweicht. Es 
kann sinnvoll sein, die Kriteriumsgewichte zur weiteren Verarbeitung in mathematischen 
Funktionen zu Berechnung der Gutefunktion aufzuspalten in einen Teil, der den bei Verwen- 
dung unterschiedlicher KDS variablen Anteil eines Kriteriums bemifit und einen Teil, der die 
unveranderlichen Anteile bemiBt. 

Die vorangehend beschriebenen Ausfuhrungsformen der Erfindung werden nachfolgend an- 
hand zweier konkreter Beispiele weiter erlautert. 



Beispiel 1 

Zu der nachfolgend gezeigten (fiktiven) Aminosauresequenz ASSeql soli die zugehOrige op- 
timale DNS-Sequenz ermittelt werden. Als Referenz dient eine konventionelle Rttckttberset- 
zung mit Optimierung auf optimale Codon-Usage. 

ASSeql: 

1 2 3 4 5 6 7 8 9 ' 10 11 12 13 14 
E __ Q_ F I__ I K N__ M_ F_ I I K _ N A_ 

GAA CAG TTT ATT ATT AAA AAC ATG TTT ATT ATT AAA AAC GCG 
GAG CAA TTC ATC ATC AAG AAT TTC ATC ATC AAG AAT GCC 

ATA ATA ATA ATA GCA 

GCT 



Folgende Kriterien werden der Optimierung zugrunde gelegt: 

- Die Codon usage soil auf die Codon usage von E. Coli K12 optimiert werden.. 

- Der GC - Gehalt soil mSglichst nahe bei 50 % liegen. 

- ' Repetitionen sollen m6glichst ausgeschlossen werden 

- Die Nla III Erkennungssequenz CATG soli ausgeschlossen werden 



Als Bewertungsfunktion filr die Codon usage wird folgende Funktion verwendet: 
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CUScore = (CU) 

wobei (CU) bei diesem Beispiel das arithmetische Mittel der Relative adaptiveness iiber den 
Codonpositionen der Testsequenz ist. 

Zur Darstellung der Codon usage eines Codons wird zur besseren Vergleichbarkeit der Co- 
dongute verschiedener AminosSuren das jeweils beste Codon fiir eine bestimmte J Aminosaure 
gleich 100 gesetzt und die schlechteren Codons entsprechend ihrem tabellierten prozentualen 
Anteil reskaliert. Ein CUScore von 100 bedeutet also, daB ausschlieBlich die fiir E. Coli K12 
optimalen Codons verwendet werden. 

Das Gewicht fur den prozentualen GC-Gehalt wird wie folgt berechnet: 
GCScore = \(GC) - GC Wunsch | 1J x 0,8 * 

Zur Ermittlung der Einzelgewichte der Alignments (Alignmentscore) wird ein optimales lo- 
kales Alignment der Testsequenz mit einem Teilbereich der Testsequenz, der maximal die 
letzten 36 Basen der kompletten Testsequenz umfasst, unter Ausschluss des Identitatsalign- 
ments (Alignment des vollstandigen Teilbereiches mit sich selbst) generiert (vgl. Fig. 3, 4a, 
4b). 

Als Bewertungsparameter fiir eine Basenposition zur Berechnung der Dynamic-Programming 
Matrix werden dabei verwendet: 

Ubereinstimmxing (Match) = 1; 

Fehlpaarung (Mismatch) = -2; 

Lucke (Gap) - -2. 

Das entsprechende Kriteriumsgewicht wird durch eine Potenz des optimalen Alignment- 
Scores in dem iiberpruften Bereich der Testsequenz festgelegt: 
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REPScore = (Score Mi „ mem y 

Ftir jede gefiindene CATG-Sequenz wird ein Sitescore von 100000 vergeben. 
Die Gesamtgutefunktion GesScore ergibt sich 

GesScore = CUScore - GCScore - REPScore - SiteScore * ' " : 

Die KDS-Lange m betragt 3 Codons (9 Basen). 

Eine Optimierung lediglich auf optimale Codon-Usage resultiert in folgender Sequenz: 

1 2 3 4 5 6 7 8 .9 10 11 12 13 14 

E Q F I I K N M F I_ I K N__ A_ 

GAA CAG TTT ATT ATT AAA AAC ATG TTT ATT ATT AAA AAC GCG 
Sie ist durch folgende Eigenschaften charakterisiert: 

Stark repetitiv, verursacht dtirch die zweimalig erscheinende Aminosauresequenz 
F _I_I_K_N (gezeigt ist das repetitive Element mit dem hochsten Score (1 8)): 

19 AAC AT GTT T AT TAT T AAAAAC 
I I I I I I! I I I I I I I I I I I I I 
2 AAC A- GTT TAT T ATT AAAAAC 

GC-Gehalt:21,4% 

Die Nla III Erkennungssequenz CATG ist vorhanden 
Durchschnittliche Codon-Usage: 100 
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Wird die Optimierung nach dem erfindungsgemaBen Algorithmus mit den oben genannten 
Bewertungsfunktionen und Parametern vorgenommen, so erhalt man folgende DNS-Sequenz: 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 
E Q F I I K N M F I I K N A 

GAA CAG TTC ATC ATC AAA AAT ATG TTT ATT ATC AAG AAC GCG 

Sie ist durch folgende Eigenschaften charakterisiert: 

Kaiim repetitiv (das nachfolgend gezeigte Alignment mit dem hochsten Beitrag hat 
einen Score 6) 

11 T CATC A 
I I I I I I 
8 T CATC A 

GC-Gehalt:31,0% 

Die Nla III Erkennungssequenz CATG ist vermieden worden 
Durchschnittliche Codon-Usage: 88 

Bei dem erfindungsgemaBen Optimierungsergebnis wurde an funf Aminosaure-Positionen 
nicht das hinsichtlich der Codon usage optimale Codon gewShlt. Die erfindungsgemaBe auf- 
gefbndene Sequenz stellt jedoch eirie optimale Balance der unterschiedlichen Anforderungen 
in Bezug auf Codon-Usage, GC-Gehalt und ideale Sequenzeigenschaften (Vermeidung von 
Repetitionen) dar. 

Bei den Aminosauren mit den Nummern 3 5 4 5 5 ist der hahere GC-Anteil der hinsichtlich der 
Codon usage schlechteren Codons der Grund fur die Wahl. An Position 6 iiberwiegt jedoch 
beim Vergleich der Codons AAA und AAG die wesentlich bessere Codon usage des AAA 
Codons, obwohl die Wahl des AAG Codons zu einem besseren GC-Score flihren wtirde. Bei 
Bildung der KDS an Basenposition 13 wird fur die Aminosaure Nr. 7 noch das Codon AAC 
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bevorzugt, da bei einer FenstergrSfie fiir die KDS von 3 Codons noch nicht erkennbar ist, daB 
diese Wahl zu Bildung des zu vermeidenden DNS-Motivs CATG fiihren wird (fiir Methionin 
ist der genetische Code nicht degeneriert, d.h. es gibt nur ein Codon zur Expression von Me- 
thionin). Bei der Bildung der KDS an Basenposition 16 wird dies jedoch bereits erkannt und 
folgerichtig das Codon AAT gewahlt. Bei der Wahl der Codons fiir die Aminosauren 9 bis 13 
spielt neben Codon-Usage und GC-Gehalt auch die Vermeidung einer repetitiven DNS- 
Sequenz. Aufgrund der identischen Aminosauresequenzen der Aminosauren Nr. 3 bis 7 und 9 
bis 13 eine entscheidende Rolle. Aus diesem Grunde werden fiir die Aminosauren . 9. und 10 
im Gegensatz zu vorher (Asr. 3,4) die Codons TTT und ATT bevorzugt. 

Die am Ende der Beschreibung beigefiigte Tabelle illustriert die einzelnen Schritte des Algo- 
rithmus, die zu dem oben angegebenen Optimierungsergebnis gefiihrt haben. Sie ermSglicht 
es, den Ablauf des Algorithmus Schritt fiir Schritt nachzuvollziehen. Fiir jede Startposition 
werden dabei detailliert alle von der Software gebildeten Kombinations-DNS-Sequenzen 
(KDS) aufgelisteL 

Zu jeder mSglichen KDS werden folgende Angaben gemacht: 

- die aus der jeweiligen KDS und der bereits optimierten DNS-Sequenz gebildete Test- 
sequenz, welche zur Evaluierung der KDS herangezogen wird, 

- die Scores, welche fur Codon usage, GC-Gehalt, Repetitivitat und aufgefundenen 
DNS-Sites ermittelt wurden (CU, GC, Rep, Site) 

- das fiir die jeweilige Testsequenz ermittelte repetitive Element mit dem hochsten 
Alignment-Score, 

- der ermittelte Gesamtscore. 

Die KDS sind dabei nach fallendem Gesamtscore sortiert, d.h. das erste Codon der ersten ge- 
zeigten KDS wird an die bereits optimierte DNS-Sequenz angefiigt. 
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Beispiel 2 

Bei diesem Beispiel wird die Optimierung von GFP auf Expression in E. Coli betrachtet. 
Herkunft der Aminos&uresequenz: 

DEFINITION Aequorea victoria green- fluorescent protein mRNA, complete cds . 
ACCESSION M62654 

j " " ■ 

MSKGEELFTGWPIIjVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTTGKLPVPWPTLVTTFSYGVQCFSRYP 

DHMKQHDFFKSAMPEGYVQERTIFYKDDGNYKSRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKMEYNYNSHNV 

YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHYLSTQSALSKDPNEKRDHMILLEFVT 
AAGITHGMDELYK 

Verwendete Codon-Usage-Table: Escherichia coli Kl 2 
Herkunft : Codon usage Database auf www.kazusELor.jp/codon 

Nachfolgend bedeuten: 

<CU> : durchschnittliche renormierte Codon-Usage der KDS (15 Basen lang) 

<GO : durchschnittlicher prozentualer GC-Gehalt der letzten 35 Basen der Testsequenz 

GCwunsch: Angestrebter GC-Gehalt 

Die GroBe des Fenster, auf dem der GC-Gehalt fur die graphische Darstellung in Fig. 5b bis 
8b berechnet wurde, betrug 40 Basen 

Fig. 5a und 5b zeigen die Ergebnisse fur die Gtttefunktion: 

Score =(CU) 

Fig. 6a und 6b zeigen die Ergebnisse flir die Gtttefunktion 
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Score ={CU)- \{GC > - GC Wunsch f 3 x 0.8 

Fig. 7a und 7b zeigen die Ergebnisse fQi die Gutefiinktion 

Score =(CU)-\(GC)~ GC Wunsch |" x 1 .5 

Fig. 8a land 8b zeigen die Ergebnisse fiir die Gutefiinktion J . . 

Score = (CU > - |<GC > - GC Wimsch f 3 x 5 

Die Figuren 5 bis 8 verdeutlichen den EinfluB der unterschiedlichen Gewichtung zweier Op- 
timierungskriterien auf das Optimierungsergebnis. Ziel ist, die GC-Gehallsverteilung tiber die 
Sequenz zu glatten und den Wert 50% anzunahern. In dem in Fig. 5a und 5b gezeigten Fall 
wurde lediglich auf die optinaale Codon-Usage optimiert, was in einer sehr heterbgenen und 
vom Ziel-Gehalt teilweise stark abweichenden GC-Verteilung resultiert. In dem Fall der Fig. 
6a und 6b verbindet sich in idealer Weise eine Glattung des GC-Gehaltes auf einen Wert urn 
50% mit einer guten bis sehr guten Codon-Usage. Die Falle der Fig. 7a und 7b bzw. 8a und 
8b verdeutlichen schliefllich, dafi eine weitere GC-Gehalts-Optimierung zwar moglich ist, 
aber mit einer stellenweise schlechten Codon-Usage erkauft werden muB. 

Die in den Anspriichen, den Zeichnungen xmd der Beschreibung offenbarten Merkmale kon- 
nen sowohl einzeln als auch in beliebiger Kombination fur die Verwkklichung der Erfmdung 
in ihren verschiedenen Ausfllhrungsformen wesentlich sein. 
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KDS-Startposition 7 bei Aminosaure 

KDS CU GC Site Rep 

Testsequenz 
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KDS-Startposition 10 bei Aminosaure 
CU GC * Site Rep 



4 I 
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KDS-Startposition 1 3 b ei Aminosaure 
CU GC Site Rep 
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Gesamt-Score 



ATCAAAAAC 94 19 
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KDS-Startposition 19 bei Aminosaure 
KDS CU GC Site Rep 
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ms 


TTTATCATA 65 42 0 0,0 
GAACAGTTCAT CATCAAAAATATGTTTATCATA 


jam 


liiATAATC 65 42 0 0,0 

GAACAGTTCATCATCAAAAATATGTTTATAATC 


KG 


l 23,0 


TTTATTATA 71-49 0 0,0 
GAA CAGTTCAT CATCAAAAATATGTTTATTAT A 




1 22,0 


TTTATAATT 71 49 0 0Q 
GAACAGTTCATCATCAAAAATATGTTTATAATT 




TTCATAATT 63 42 • 0 0,0 
GAACAGTTCATCATCAAAAATATGTTCATAATT 




I ' 21,0 


TTCATTATA 63 42 0 0,0 

GAACAGTTCATCATCAAAAATATGTTCATTATA 


m 


J 21,0 ' 


TTCATAATC 57 35 0 12,5 

GAACAGTTCATCATCAAAAATATGTTCATAATC 


m 


mi 


TTCATCATA 57 35 0 17,4 <j 
GAACAGTTCATCATCAAAAATATGTTCATCATA J 


Hel- 


mi • - - 5 »° 


TTTATAATA 43 49 0 qq 
^GAACAGTTCATCATCAAAAATATGTTTATAATA 


m 


t - 6 >° 


yCATAATA 34 42 0 0,0 W?W 

W GAACAGTTCATCATCAAAAATATGTTCATAATA AWtA' 


[ -8.0 



KDS-Startposition 28 bei Aminosaure 
KDS CU GC Site Rep 



10 I 



Alignment 



Gesamt-Score 



A 1 TATCAAA . 94 49 0 12 5 GTTTAT 
GAACAGTTCATCATCAAAAATATGTTTATTATCAAA J. - , 


2W 


ATCATTAAA 94 49 0 12 5 G' * :TA' ? 
gaac^gttcatcatcaXaaatatgtttatcattaaa <L - ^ , 


am 


ATTATCAAG 71 42 0 0,0 
gaacagttcatcatcaaaaatatgtttattatcaag tcJItca 


29,0 


ATCATTAAG 71 42 0 0,0 TWTW 
gaacagttcatcatcaaaaatatgtttatcattaag t^tcA 


29,0 


ATTATTAAA 100 57 0 14,9 TWTW 
GAACAGTTCATCATCAAAAATATGTTTATTATTAAA TcAtcA' 


- -AAAATATGTTTATTj 
rCAAAA-ATATGT-TTJ 


SB 28,0 


' A CATCAAA 88 42 0 20,0 gtttat( 
1 «^cagttcatcatcaaaaatatgtttatcatcaaa GttcAt< 


aiait 26 >° 


^TTATAAAA 71 57 0 0,0 

gaacagttcatcatcaaaaatatgtttattataaaa tcAtcA 


14,0 


ATAATTAAA 71 57 0 00 TWTW 
gaacagttcatcatcaaaaatatgtttataattaaa tcAtcA 


14,0 


ATTATTAAG 77 49 0 14,9 TWTW" 
gaacagttcatcatcaaaaatatgtttattattaag tC^tcA! 


mum 


KVA • 13Q 
iTTA 


ATCATCAAG 65 35 0 17,4 ?TT T £T ( r 

GAACAGTTCATCATCAAAAATATGTTTATCATCAAG AtTcAt<! 


m 


ATAAicaaa 65 49 0 12,5 ?TT T ^T A ^T9W o n 

GAA CAGTTCATCATCAAAAATATG TTTATAATCAAA iHciialiflLLl ' 


AlUATAAAA 65 49 0 14,9 GTTTATC 
GAA CAGTTCATCAT CAAAAATATGTTTATCATAAAA AttcATC 




ATAATCAAG 43 42 0 00 TWT9£ 

GAA CAGTTCATCAT CAAAAATATGTTTATAATCAAG TcAtcA 


1,0 


AHATaaag 49 49 0 00 TWT^ 
GAA CAGTT CATCAT (2AAAAATATGTTTATTATAAAG tStEI 


0,0 



- 49 - 



ATAATTAAG 49 49 0 0 0 

GAACAGTTCATCATCAAAAATATGTTTATAATTAAG 



mm 



0,0 



ATCATAAAG 43 42 0 12 5 ?* 
GAACAGTTCATCATCAAAAATATGTTTATCATAAAG <L 


O 


w 


S3 


[ -12,0 


ATAATAAAA 43 57 0 0,0 V 
GAACAGTTCATCATCAAAAATATGTTTATAATAAAA ^ 


m 


J -14,0 


ATAATAAAG 20 49 0 0 0 T ( 
GAACAGTTCATCAT CAAAAATATGTTTATAATAAAG ^ 




J -29,0 



KDS-Startposition 31 bei Aminoslure 
KDS CU GC Site Rep 

Testsequenz 



11 I 



Alignment 



Gesamt-Score 



ATCAAGAAC 71 42 0 0,0 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAAC 



ATTAAAAAC 100 57 0 14 9 

GAACAGTTCATCATCAAAAATATGTTTATTATTAAAAAC 



29,0 



/T^TGTTTA' 
'ATG' 



28,0 




ATCAAAAAC 94 49 0 17 4 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAAAAC 



28,0 



TTAAAAAT 94 54 0 14 9 

GAACAGTTCATCATCAAAAATATGTTTATTATTAAAAAT 



15,0 



ATTAAGAAC 77 49 0 14 9 

GAA CAG TT CATCAT CAAAAATATGTTTATT ATTAAGAAC 



13,0 



ATCAAAAAT gg 57 0 2 0,0 

GAACAGTTCATCATCAAAAATATGTTTATTATCRAAAAT 

ATCAAGAAT 



11,0 



65 49 0 12,5 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAAT 



3,0 



ATAAAGAAC 49 49 0 00 

GAACAGTT CATCATCAAAAATATGTTTATTATAAAGAAC 



ATTAAGAAT 



mm 



0,0 



71 57 0 14,9 

GAACAGTTCATCATGAAAAATATGTTTATTATTAAGAAT 



-1,0 



ATAAAAAAC 71 57 0 14 9 

GAACAGTTCATCAT CAAAAATATGTTTATT ATAAAAAAC 

ATAAAAAAT ~ 





X3TTTATT 
'ATGT-T': 


4r 


'JItJL 


tor 



-1,0 



65 64 0 14,9 

gaacagttcatcatcaaaaatatgtttattataaaaaat 



ATAAAGAAT 43 57 0 00 

gaacagttcatc^tcaaaaatatgtttattataaagaat 



-14,0 



mm 



-14,0 



S-Startposition 34 bei Aminosaure 
CU GC Site Rep 



12 K 



KDS 

Testsequenz 



Alignment 



Gesamt-Score 



AAGAACGCG 77 2 8 0 00 

GAA CAGTTCATCAT CAAAAATATGTTTATT AT CAAGAACG C G 



mm 



49,0 



AAAAACGCG 100 35 0 17 4 
GAACAGTTCATCAT CAAAAATATG TTTATTATCAAAAACG CG 


JM3SML 


4g,0 


AAGAACGCG 69 28 0 00 
GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAACGCC 




41,0 


AAAAACGCC 92 35 0 17 4 
GAACAGTTCATCATCAAAAATATGTTTATTATCAAAAACGCC 




40,0 


AAAAATGCG 94 42 0 20,0 
GAACAGTTCATCAT CAAAAATATGTTTATT ATCAAAAATGCG 


wsbmh 


32,0 


AAGAACGCA 63 35 0 00 

GAAC^GTTCATCATCAAAAATATGTTTATTATCAAGAACGCA 


mm 


28,0 


AAAAACGCA 86 42 0 17 4 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAAAACGCA 


■wmmw 


27,0 



- 50 - 



AAAAATGCC 86 42 0 20,0 

GAA CAGTTCATCAT CAAAAATATGTTTATTATCAAAAATGC C 



AAGAACGCT 59 35 q qq 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAACGCT 



AAGAATGCG 71 35 0 12,5 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAATG CG 



AAAAACGCT 81 42 0 17 4 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAAAACGCT 



AAGAATGCC 63 35 0 12,5 

GAACAGTTCATCATCAAAAATATGTTTATTATCAAGAATGCC 



AAAAATGCA 80 49 0 20,0 

GAACAGTTCAT CAT CAAAAATATGTTTATT ATCAAAAATGCA 



AAAAATGCT 75 49 q 2 0,0 

GAA CAGTTCATCAT CAAAAATATGTTTATT ATCAAAAATGCT 



AAGAATGCA 57 42 0 12 5 

GAAC^GTTCATCATCAAAAATATGTTTATTATCAAGAATGCA 



AAGAATGCT 53 42 0 12,5 

GAACAGTTCAT CAT CAAAAATATGTTTATTATCAAGAATG CT 




24,0 



24,0 



maws 



23,0 



SSH1 



22,0 



15,0 



11,0 



6,0 



1 



2,0 



-2,0 
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Zusamme nfassung 

Die Erfindung betrifft ein Verfahren zum Optimieren einer Nucleotidsequenz zur Expression 
ernes Proteins auf der Grundlage der Aminosaurehsequenz des Proteins, bei welchem fur ei- 
nen bestimmten Bereich eine Testsequenz mit m Optimierungspositionen festgelegt wird, auf 
denen die Codonbesetzung variiert wird, wobei mittels einer Gutefunktion die optimale Co- 
donbesetzung auf diesen Optimierungspositionen ermittelt wird und ein oder mehrere Codons 
dieser optimalen Besetzung als Codons der optimierten Nucleotidsequenz festgelegt werden. 

• Diese Schritte werden iteriert, wobei bei nachfolgenden Iterationsschritten die in vorangehen- 
den Schritten festgelegten Codons der optimierten Nucleotidsequenz unverandert bleiben. Die 
. Erfindung betrifft weiterhin eine Vorrichtung zur Durchftihrung dieses Verfahrens. 



START 



Eingabe der 
Aminosduresequenz 
der Ldnge N 



Beginne mit Aminosaure i=1 



Bilde erste KDS der Codons fGr die Aminosauren i 
bis i + m - 1 



Bilde Testsequenz durch AneinanderfQgen der 
bereits optimierten DNS - Sequenz und der KDS 



Evaluiere die Testsequenz nach benutzerdefinierten 
Kriterien und bestimme den Wert eine GQtefunktion 
durch Verrechnung der Kriteriumsgewichte in einer 
Bewertungsfunktion 



nein 




nein 



Bilde nSchste mSgliche KDS der Codons fQr die 
AminosSuren i bis i+m-1 




jr nein 

FQge das gespeicherte Codon an die bereits 
gebildete optimierte DNS-Sequenz an 



FQge die KDS an die bereits gebildete optimierte 
DNS-Sequenz an 



Ausgabe der 
optimierten 
DNS-Sequenz 
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Vergleichsbereich der 
Teilbereich 
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